論文の概要: A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning
- arxiv url: http://arxiv.org/abs/2210.03112v3
- Date: Mon, 17 Apr 2023 11:17:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 00:06:54.012816
- Title: A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning
- Title(参考訳): 新しい経路:合成命令と模倣学習による視覚言語ナビゲーションのスケーリング
- Authors: Aishwarya Kamath, Peter Anderson, Su Wang, Jing Yu Koh, Alexander Ku,
Austin Waters, Yinfei Yang, Jason Baldridge and Zarana Parekh
- Abstract要約: VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
- 参考スコア(独自算出の注目度): 70.14372215250535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies in Vision-and-Language Navigation (VLN) train RL agents to
execute natural-language navigation instructions in photorealistic
environments, as a step towards robots that can follow human instructions.
However, given the scarcity of human instruction data and limited diversity in
the training environments, these agents still struggle with complex language
grounding and spatial language understanding. Pretraining on large text and
image-text datasets from the web has been extensively explored but the
improvements are limited. We investigate large-scale augmentation with
synthetic instructions. We take 500+ indoor environments captured in
densely-sampled 360 degree panoramas, construct navigation trajectories through
these panoramas, and generate a visually-grounded instruction for each
trajectory using Marky, a high-quality multilingual navigation instruction
generator. We also synthesize image observations from novel viewpoints using an
image-to-image GAN. The resulting dataset of 4.2M instruction-trajectory pairs
is two orders of magnitude larger than existing human-annotated datasets, and
contains a wider variety of environments and viewpoints. To efficiently
leverage data at this scale, we train a simple transformer agent with imitation
learning. On the challenging RxR dataset, our approach outperforms all existing
RL agents, improving the state-of-the-art NDTW from 71.1 to 79.1 in seen
environments, and from 64.6 to 66.8 in unseen test environments. Our work
points to a new path to improving instruction-following agents, emphasizing
large-scale imitation learning and the development of synthetic instruction
generation capabilities.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)の最近の研究は、人間の指示に従うロボットへのステップとして、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行するためにRLエージェントを訓練している。
しかし、人間の指導データの不足と訓練環境の多様性を考えると、これらのエージェントは複雑な言語基底化と空間言語理解に苦しむ。
Webからの大きなテキストとイメージテキストのデータセットを事前トレーニングすることは、広く検討されているが、改善は限られている。
合成指示による大規模拡張について検討する。
密集した360度パノラマで撮影された500以上の屋内環境を取り、これらのパノラマを通してナビゲーショントラジェクタを構築し、高品質の多言語ナビゲーションインストラクションジェネレータであるmarkyを用いて、各軌道に対して視覚的に接地した命令を生成する。
また、画像から画像へのGANを用いて、新しい視点から画像観察を合成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きく、幅広い環境と視点を含んでいる。
この規模でデータを効率的に活用するために,模倣学習による簡易変圧器エージェントを訓練する。
挑戦的なRxRデータセットでは、我々のアプローチは既存のRLエージェントよりも優れており、見る環境では71.1から79.1に、見えない環境では64.6から66.8に改善されている。
我々の研究は、大規模模倣学習と合成命令生成能力の発達を強調し、命令追従エージェントを改善するための新たな道を示す。
関連論文リスト
- Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - Less is More: Generating Grounded Navigation Instructions from Landmarks [71.60176664576551]
屋内ルートで撮影された360度画像からナビゲーション命令の自動生成について検討した。
我々のMARKY-MT5システムは、視覚的ランドマークに焦点を当ててこの問題に対処する。
第1段のランドマーク検出器と第2段のジェネレータ(マルチモーダル、マルチリンガル、エンコーダデコーダ)を備える。
論文 参考訳(メタデータ) (2021-11-25T02:20:12Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z) - Multi-View Learning for Vision-and-Language Navigation [163.20410080001324]
EveryOne(LEO)から学ぶことは、視覚環境でのナビゲーションを学ぶためのトレーニングパラダイムです。
命令間でパラメータを共有することで、限られたトレーニングデータからより効果的に学習する。
最近のRoom-to-Room(R2R)ベンチマークデータセットでは、LEOはgreedyエージェントよりも16%改善(絶対)されている。
論文 参考訳(メタデータ) (2020-03-02T13:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。