論文の概要: Active Visual Information Gathering for Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2007.08037v3
- Date: Wed, 19 Aug 2020 19:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 06:11:52.035935
- Title: Active Visual Information Gathering for Vision-Language Navigation
- Title(参考訳): 視覚言語ナビゲーションのためのアクティブビジュアル情報収集
- Authors: Hanqing Wang, Wenguan Wang, Tianmin Shu, Wei Liang and Jianbing Shen
- Abstract要約: 視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
- 参考スコア(独自算出の注目度): 115.40768457718325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language navigation (VLN) is the task of entailing an agent to carry
out navigational instructions inside photo-realistic environments. One of the
key challenges in VLN is how to conduct a robust navigation by mitigating the
uncertainty caused by ambiguous instructions and insufficient observation of
the environment. Agents trained by current approaches typically suffer from
this and would consequently struggle to avoid random and inefficient actions at
every step. In contrast, when humans face such a challenge, they can still
maintain robust navigation by actively exploring the surroundings to gather
more information and thus make more confident navigation decisions. This work
draws inspiration from human navigation behavior and endows an agent with an
active information gathering ability for a more intelligent vision-language
navigation policy. To achieve this, we propose an end-to-end framework for
learning an exploration policy that decides i) when and where to explore, ii)
what information is worth gathering during exploration, and iii) how to adjust
the navigation decision after the exploration. The experimental results show
promising exploration strategies emerged from training, which leads to
significant boost in navigation performance. On the R2R challenge leaderboard,
our agent gets promising results all three VLN settings, i.e., single run,
pre-exploration, and beam search.
- Abstract(参考訳): 視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
現在のアプローチで訓練されたエージェントは通常、これに苦しむため、すべてのステップでランダムで非効率なアクションを避けるのに苦労する。
対照的に、人間がこのような課題に直面した場合でも、周囲を積極的に探索してより多くの情報を集め、より確実なナビゲーション決定を行うことで、堅牢なナビゲーションを維持することができる。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントな視覚言語ナビゲーションポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
これを実現するために,探索政策を学習するためのエンドツーエンドフレームワークを提案する。
i) いつどこで探検するか
二 探査中に収集する価値のある情報、及び
三 探検後の航法決定の調整方法
実験の結果,訓練から有望な探索戦略が出現し,ナビゲーション性能が大幅に向上した。
R2Rチャレンジのリーダーボードでは、エージェントは3つのVLN設定、すなわちシングルラン、事前探索、ビームサーチすべてに対して有望な結果を得る。
関連論文リスト
- Two-Stage Depth Enhanced Learning with Obstacle Map For Object Navigation [11.667940255053582]
本稿では,RGBとトレーニングシーンの深度情報を用いて特徴抽出器の事前訓練を行い,ナビゲーション効率を向上する。
提案手法をAI2-ThorとRobothorで評価し,成功率と航法効率において最先端(SOTA)法を著しく上回っていることを示した。
論文 参考訳(メタデータ) (2024-06-20T08:35:10Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。
エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。
計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文 参考訳(メタデータ) (2021-04-28T22:46:41Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。