論文の概要: A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning
- arxiv url: http://arxiv.org/abs/2210.03112v1
- Date: Thu, 6 Oct 2022 17:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 15:16:35.794458
- Title: A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning
- Title(参考訳): 新しい経路:合成命令と模倣学習による視覚言語ナビゲーションのスケーリング
- Authors: Aishwarya Kamath, Peter Anderson, Su Wang, Jing Yu Koh, Alexander Ku,
Austin Waters, Yinfei Yang, Jason Baldridge and Zarana Parekh
- Abstract要約: VLN(Vision-and-Language Navigation)における最近の研究は、多言語環境で自然言語ナビゲーション命令を実行するためにRLエージェントを訓練している。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
密集した360度パノラマで捉えた500以上の屋内環境を、これらのパノラマを通して航法軌道を構築し、各軌跡に対して視覚的に接地した指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
- 参考スコア(独自算出の注目度): 70.14372215250535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies in Vision-and-Language Navigation (VLN) train RL agents to
execute natural-language navigation instructions in photorealistic
environments, as a step towards intelligent agents or robots that can follow
human instructions. However, given the scarcity of human instruction data and
limited diversity in the training environments, these agents still struggle
with complex language grounding and spatial language understanding.
Pre-training on large text and image-text datasets from the web has been
extensively explored but the improvements are limited. To address the scarcity
of in-domain instruction data, we investigate large-scale augmentation with
synthetic instructions. We take 500+ indoor environments captured in
densely-sampled 360 deg panoramas, construct navigation trajectories through
these panoramas, and generate a visually-grounded instruction for each
trajectory using Marky (Wang et al., 2022), a high-quality multilingual
navigation instruction generator. To further increase the variability of the
trajectories, we also synthesize image observations from novel viewpoints using
an image-to-image GAN. The resulting dataset of 4.2M instruction-trajectory
pairs is two orders of magnitude larger than existing human-annotated datasets,
and contains a wider variety of environments and viewpoints. To efficiently
leverage data at this scale, we train a transformer agent with imitation
learning for over 700M steps of experience. On the challenging Room-across-Room
dataset, our approach outperforms all existing RL agents, improving the
state-of-the-art NDTW from 71.1 to 79.1 in seen environments, and from 64.6 to
66.8 in unseen test environments. Our work points to a new path to improving
instruction-following agents, emphasizing large-scale imitation learning and
the development of synthetic instruction generation capabilities.
- Abstract(参考訳): 近年のVLN(Vision-and-Language Navigation)では、人間の指示に従うインテリジェントエージェントやロボットへのステップとして、RLエージェントを光現実的な環境で自然言語ナビゲーション命令を実行するように訓練している。
しかし、人間の指導データの不足と訓練環境の多様性を考えると、これらのエージェントは複雑な言語基底化と空間言語理解に苦しむ。
Webからの大きなテキストとイメージテキストのデータセットを事前トレーニングすることは、広く検討されているが、改善は限られている。
ドメイン内命令データの不足に対処するため,合成命令を用いた大規模拡張について検討する。
密集した360デグパノラマで撮影された500以上の屋内環境を取り、これらのパノラマを通してナビゲーショントラジェクタを構築し、高品質の多言語ナビゲーションインストラクションジェネレータであるmarky (wang et al., 2022) を用いて、各軌道に対して視覚的に接地した命令を生成する。
トラジェクトリの変動性をさらに高めるため、画像から画像へのGANを用いて、新しい視点から画像観察を合成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きく、幅広い環境と視点を含んでいる。
このスケールでデータを効率的に活用するために,700m以上の経験ステップを模倣学習したトランスフォーマーエージェントを訓練する。
挑戦的なRoom-across-Roomデータセットでは、既存のRLエージェントを全て上回り、現在のNATWを71.1から79.1に改善し、見えないテスト環境では64.6から66.8に改善しました。
我々の研究は、大規模模倣学習と合成命令生成能力の発達を強調し、命令追従エージェントを改善するための新たな道を示す。
関連論文リスト
- Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - Less is More: Generating Grounded Navigation Instructions from Landmarks [71.60176664576551]
屋内ルートで撮影された360度画像からナビゲーション命令の自動生成について検討した。
我々のMARKY-MT5システムは、視覚的ランドマークに焦点を当ててこの問題に対処する。
第1段のランドマーク検出器と第2段のジェネレータ(マルチモーダル、マルチリンガル、エンコーダデコーダ)を備える。
論文 参考訳(メタデータ) (2021-11-25T02:20:12Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z) - Multi-View Learning for Vision-and-Language Navigation [163.20410080001324]
EveryOne(LEO)から学ぶことは、視覚環境でのナビゲーションを学ぶためのトレーニングパラダイムです。
命令間でパラメータを共有することで、限られたトレーニングデータからより効果的に学習する。
最近のRoom-to-Room(R2R)ベンチマークデータセットでは、LEOはgreedyエージェントよりも16%改善(絶対)されている。
論文 参考訳(メタデータ) (2020-03-02T13:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。