論文の概要: Diagnosing Vision-and-Language Navigation: What Really Matters
- arxiv url: http://arxiv.org/abs/2103.16561v1
- Date: Tue, 30 Mar 2021 17:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 15:16:36.676830
- Title: Diagnosing Vision-and-Language Navigation: What Really Matters
- Title(参考訳): 視覚と言語によるナビゲーションの診断:本当に重要なこと
- Authors: Wanrong Zhu, Yuankai Qi, Pradyumna Narayana, Kazoo Sone, Sugato Basu,
Xin Eric Wang, Qi Wu, Miguel Eckstein, William Yang Wang
- Abstract要約: 視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
- 参考スコア(独自算出の注目度): 61.72935815656582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-language navigation (VLN) is a multimodal task where an agent
follows natural language instructions and navigates in visual environments.
Multiple setups have been proposed, and researchers apply new model
architectures or training techniques to boost navigation performance. However,
recent studies witness a slow-down in the performance improvements in both
indoor and outdoor VLN tasks, and the agents' inner mechanisms for making
navigation decisions remain unclear. To the best of our knowledge, the way the
agents perceive the multimodal input is under-studied and clearly needs
investigations. In this work, we conduct a series of diagnostic experiments to
unveil agents' focus during navigation. Results show that indoor navigation
agents refer to both object tokens and direction tokens in the instruction when
making decisions. In contrast, outdoor navigation agents heavily rely on
direction tokens and have a poor understanding of the object tokens.
Furthermore, instead of merely staring at surrounding objects, indoor
navigation agents can set their sights on objects further from the current
viewpoint. When it comes to vision-and-language alignments, many models claim
that they are able to align object tokens with certain visual targets, but we
cast doubt on the reliability of such alignments.
- Abstract(参考訳): 視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
複数のセットアップが提案されており、研究者はナビゲーション性能を向上させるために新しいモデルアーキテクチャやトレーニング技術を適用する。
しかし、最近の研究では、室内および屋外のVLNタスクのパフォーマンス改善が遅くなり、エージェントがナビゲーション決定を行うための内部メカニズムが不明確になっている。
私たちの知る限りでは、エージェントがマルチモーダル入力を知覚する方法は十分に研究されておらず、明らかに調査が必要です。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
その結果,屋内ナビゲーションエージェントは,指示中のオブジェクトトークンと方向トークンの両方を参照していることがわかった。
対照的に、屋外ナビゲーションエージェントは方向トークンに大きく依存しており、オブジェクトトークンの理解が不十分である。
さらに、単に周囲の物体を見つめるのではなく、屋内ナビゲーションエージェントは現在の視点から物体を視認することができる。
視覚と言語間のアライメントに関しては、多くのモデルがオブジェクトトークンを特定の視覚ターゲットにアライメントできると主張しているが、そのようなアライメントの信頼性に疑問を投げかけている。
関連論文リスト
- TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z) - NavHint: Vision and Language Navigation Agent with a Hint Generator [31.322331792911598]
我々は、詳細な視覚的記述を提供するヒント生成装置を通じて、ナビゲーションエージェントに対して間接的な監視を行う。
ヒントジェネレータは、ナビゲーションエージェントが視覚環境のグローバルな理解を開発するのを支援する。
提案手法をR2RとR4Rのデータセット上で評価し,いくつかの指標で最先端を実現する。
論文 参考訳(メタデータ) (2024-02-04T16:23:16Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - What do navigation agents learn about their environment? [39.74076893981299]
本稿では、ポイントゴールナビゲーションエージェントとオブジェクトゴールナビゲーションエージェントのための、エンボディード・アグエント(iSEE)の解釈可能性システムについて紹介する。
これらのエージェントが生成する動的表現をiSEEを用いて探索し,エージェントや環境に関する情報を提示する。
論文 参考訳(メタデータ) (2022-06-17T01:33:43Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。
エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。
計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文 参考訳(メタデータ) (2021-04-28T22:46:41Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。