論文の概要: Learning Vision-and-Language Navigation from YouTube Videos
- arxiv url: http://arxiv.org/abs/2307.11984v1
- Date: Sat, 22 Jul 2023 05:26:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 18:39:20.347821
- Title: Learning Vision-and-Language Navigation from YouTube Videos
- Title(参考訳): YouTubeビデオによる視覚・言語ナビゲーションの学習
- Authors: Kunyang Lin, Peihao Chen, Diwei Huang, Thomas H. Li, Mingkui Tan,
Chuang Gan
- Abstract要約: 視覚言語ナビゲーション(VLN)は、自然言語命令を用いて現実的な3D環境をナビゲートするために、具体化されたエージェントを必要とする。
YouTubeには大量のハウスツアービデオがあり、豊富なナビゲーション体験とレイアウト情報を提供している。
住宅ツアービデオから合理的な経路指示ペアとエージェントを事前訓練した大規模データセットを作成する。
- 参考スコア(独自算出の注目度): 89.1919348607439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-language navigation (VLN) requires an embodied agent to navigate
in realistic 3D environments using natural language instructions. Existing VLN
methods suffer from training on small-scale environments or unreasonable
path-instruction datasets, limiting the generalization to unseen environments.
There are massive house tour videos on YouTube, providing abundant real
navigation experiences and layout information. However, these videos have not
been explored for VLN before. In this paper, we propose to learn an agent from
these videos by creating a large-scale dataset which comprises reasonable
path-instruction pairs from house tour videos and pre-training the agent on it.
To achieve this, we have to tackle the challenges of automatically constructing
path-instruction pairs and exploiting real layout knowledge from raw and
unlabeled videos. To address these, we first leverage an entropy-based method
to construct the nodes of a path trajectory. Then, we propose an action-aware
generator for generating instructions from unlabeled trajectories. Last, we
devise a trajectory judgment pretext task to encourage the agent to mine the
layout knowledge. Experimental results show that our method achieves
state-of-the-art performance on two popular benchmarks (R2R and REVERIE). Code
is available at https://github.com/JeremyLinky/YouTube-VLN
- Abstract(参考訳): 視覚言語ナビゲーション(VLN)は、自然言語命令を用いて現実的な3D環境をナビゲートするために、エンボディエージェントを必要とする。
既存のVLNメソッドは、小規模環境や不合理なパス命令データセットのトレーニングに悩まされ、一般化を目に見えない環境に制限する。
YouTubeには大量のハウスツアービデオがあり、豊富なナビゲーション体験とレイアウト情報を提供している。
しかしながら、これらのビデオはVLNのために探索されていない。
本稿では,ハウスツアービデオから合理的なパスインストラクションペアを含む大規模データセットを作成し,エージェントを事前学習することにより,これらのビデオからエージェントを学習することを提案する。
これを実現するためには、パス命令ペアを自動的に構築し、生ビデオや未ラベルビデオから実際のレイアウト知識を活用するという課題に取り組む必要がある。
これらの問題に対処するために,まずエントロピー法を用いて経路軌道のノードを構築する。
次に,ラベルなしのトラジェクタから命令を生成するアクションアウェア生成器を提案する。
最後に、エージェントがレイアウトの知識をマイニングするよう促すために、軌跡判断前提タスクを考案する。
実験の結果,提案手法は2つのベンチマーク(R2RとREVERIE)の最先端性能を実現することがわかった。
コードはhttps://github.com/JeremyLinky/YouTube-VLNで入手できる。
関連論文リスト
- NOLO: Navigate Only Look Once [29.242548047719787]
本稿では、オフラインでビデオからコンテキスト内ナビゲーションポリシーを純粋に学習する必要があるビデオナビゲーション設定に焦点を当てる。
In-context 能力を有するナビゲーションポリシーの学習方法である Navigate Only Look Once (NOLO) を提案する。
提案アルゴリズムは,学習ポリシーの文脈内学習能力を実証し,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-08-02T16:41:34Z) - NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation [23.72290930234063]
NaVidは、ヴィジュアル・アンド・ランゲージナビゲーションのためのビデオベースの大型視覚言語モデル(VLM)である。
NaVidはシミュレーション環境と現実世界で最先端のパフォーマンスを実現し、優れたクロスデータセットとSim2Real転送を実現している。
論文 参考訳(メタデータ) (2024-02-24T16:39:16Z) - VLN-Video: Utilizing Driving Videos for Outdoor Vision-and-Language
Navigation [59.3649071376364]
既存のVLN法の性能は、ナビゲーション環境の多様性の不足と限られたトレーニングデータによって制限される。
VLN-Videoは、米国内の複数の都市において、自動生成ナビゲーション命令で動画を駆動する際の多様な屋外環境を利用する。
VLN-Videoは従来の最先端モデルのタスク完了率2.1%を大きく上回っている。
論文 参考訳(メタデータ) (2024-02-05T22:20:19Z) - Detours for Navigating Instructional Videos [58.1645668396789]
We propose VidDetours, a video-lang approach that learn to retrieve the target temporal segments from a large repository of how-to's。
本稿では,ビデオ検索と質問応答の最良の方法に比べて,モデルが大幅に改善し,リコール率が35%を超えることを示す。
論文 参考訳(メタデータ) (2024-01-03T16:38:56Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - ESceme: Vision-and-Language Navigation with Episodic Scene Memory [72.69189330588539]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
論文 参考訳(メタデータ) (2023-03-02T07:42:07Z) - A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。