論文の概要: VLN-Video: Utilizing Driving Videos for Outdoor Vision-and-Language
Navigation
- arxiv url: http://arxiv.org/abs/2402.03561v2
- Date: Wed, 7 Feb 2024 18:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 11:44:53.806179
- Title: VLN-Video: Utilizing Driving Videos for Outdoor Vision-and-Language
Navigation
- Title(参考訳): vln-video: 屋外視言語ナビゲーションにおける運転映像の活用
- Authors: Jialu Li, Aishwarya Padmakumar, Gaurav Sukhatme, Mohit Bansal
- Abstract要約: 既存のVLN法の性能は、ナビゲーション環境の多様性の不足と限られたトレーニングデータによって制限される。
VLN-Videoは、米国内の複数の都市において、自動生成ナビゲーション命令で動画を駆動する際の多様な屋外環境を利用する。
VLN-Videoは従来の最先端モデルのタスク完了率2.1%を大きく上回っている。
- 参考スコア(独自算出の注目度): 59.3649071376364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Outdoor Vision-and-Language Navigation (VLN) requires an agent to navigate
through realistic 3D outdoor environments based on natural language
instructions. The performance of existing VLN methods is limited by
insufficient diversity in navigation environments and limited training data. To
address these issues, we propose VLN-Video, which utilizes the diverse outdoor
environments present in driving videos in multiple cities in the U.S. augmented
with automatically generated navigation instructions and actions to improve
outdoor VLN performance. VLN-Video combines the best of intuitive classical
approaches and modern deep learning techniques, using template infilling to
generate grounded navigation instructions, combined with an image rotation
similarity-based navigation action predictor to obtain VLN style data from
driving videos for pretraining deep learning VLN models. We pre-train the model
on the Touchdown dataset and our video-augmented dataset created from driving
videos with three proxy tasks: Masked Language Modeling, Instruction and
Trajectory Matching, and Next Action Prediction, so as to learn
temporally-aware and visually-aligned instruction representations. The learned
instruction representation is adapted to the state-of-the-art navigator when
fine-tuning on the Touchdown dataset. Empirical results demonstrate that
VLN-Video significantly outperforms previous state-of-the-art models by 2.1% in
task completion rate, achieving a new state-of-the-art on the Touchdown
dataset.
- Abstract(参考訳): アウトドアビジョン・アンド・ランゲージナビゲーション(VLN)では、エージェントが自然言語の指示に基づいて現実的な3D屋外環境をナビゲートする必要がある。
既存のVLN法の性能は、ナビゲーション環境の多様性の不足と限られたトレーニングデータによって制限される。
これらの課題に対処するため,米国内の複数の都市において,映像の運転中に発生する多様な屋外環境を利用して,自動生成ナビゲーション命令とアクションを付加して,屋外VLN性能を向上させるVLN-Videoを提案する。
VLN-Videoは、直感的な古典的アプローチと近代的なディープラーニング技術を組み合わせて、テンプレートインフィルを使用して基底ナビゲーション命令を生成し、画像回転類似性に基づくナビゲーションアクション予測器と組み合わせて、ディープラーニングVLNモデルを事前学習するためのビデオからVLNスタイルのデータを取得する。
我々は、Touchdownデータセット上のモデルと、3つのプロキシタスクで動画の駆動から生成されたビデオ強化データセット、すなわち、マスケド言語モデリング、インストラクションとトラジェクトリマッチング、およびNext Action Predictionを事前トレーニングし、時間的に認識され、視覚的に整列された命令表現を学ぶ。
学習した命令表現は、Touchdownデータセットの微調整時に最先端のナビゲータに適合する。
実証実験の結果、VLN-Videoは従来の最先端モデルよりも2.1%向上し、Touchdownデータセット上で新しい最先端モデルを実現している。
関連論文リスト
- NOLO: Navigate Only Look Once [29.242548047719787]
本稿では、オフラインでビデオからコンテキスト内ナビゲーションポリシーを純粋に学習する必要があるビデオナビゲーション設定に焦点を当てる。
In-context 能力を有するナビゲーションポリシーの学習方法である Navigate Only Look Once (NOLO) を提案する。
提案アルゴリズムは,学習ポリシーの文脈内学習能力を実証し,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-08-02T16:41:34Z) - Vision-and-Language Navigation Generative Pretrained Transformer [0.0]
VLN-GPT(Vision-and-Language Navigation Generative Pretrained Transformer)
トランスフォーマーデコーダモデル(GPT2)を採用してトラジェクトリシーケンスの依存関係をモデル化し、歴史的エンコーディングモジュールの必要性を回避している。
VLNデータセットのパフォーマンス評価は、VLN-GPTが複雑な最先端エンコーダベースモデルを上回ることを示している。
論文 参考訳(メタデータ) (2024-05-27T09:42:04Z) - Learning Vision-and-Language Navigation from YouTube Videos [89.1919348607439]
視覚言語ナビゲーション(VLN)は、自然言語命令を用いて現実的な3D環境をナビゲートするために、具体化されたエージェントを必要とする。
YouTubeには大量のハウスツアービデオがあり、豊富なナビゲーション体験とレイアウト情報を提供している。
住宅ツアービデオから合理的な経路指示ペアとエージェントを事前訓練した大規模データセットを作成する。
論文 参考訳(メタデータ) (2023-07-22T05:26:50Z) - ViNT: A Foundation Model for Visual Navigation [52.2571739391896]
Visual Navigation Transformer (ViNT) は視覚に基づくロボットナビゲーションの基礎モデルである。
ViNTは、任意のナビゲーションデータセットで使用可能な、汎用的な目標達成目標でトレーニングされている。
特定のデータセットでトレーニングされたスペシャリストモデルよりも優れた、肯定的な転送を示す。
論文 参考訳(メタデータ) (2023-06-26T16:57:03Z) - Learning from Unlabeled 3D Environments for Vision-and-Language
Navigation [87.03299519917019]
視覚言語ナビゲーション(VLN)では、自然言語の指示に従って現実的な3D環境をナビゲートするために、具体的エージェントが必要である。
我々はHM3Dから900の未ラベルの3Dビルディングから大規模VLNデータセットを自動生成することを提案する。
実験により, HM3D-AutoVLNはVLNモデルの一般化能力を著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-08-24T21:50:20Z) - Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文 参考訳(メタデータ) (2021-08-20T10:58:09Z) - Multimodal Text Style Transfer for Outdoor Vision-and-Language
Navigation [71.67507925788577]
本稿では,屋外ナビゲーションタスクのためのマルチモーダルテキストスタイル変換(MTST)学習手法を提案する。
まず、Google Maps APIで生成された命令のスタイルを転送し、拡張された外部ナビゲーションデータセットでナビゲータを事前訓練することで、ナビゲーションデータを強化します。
実験結果から, MTST学習手法はモデルに依存しないことが明らかとなり, MTSTアプローチは屋外VLNタスクのベースラインモデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2020-07-01T04:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。