論文の概要: NavHint: Vision and Language Navigation Agent with a Hint Generator
- arxiv url: http://arxiv.org/abs/2402.02559v1
- Date: Sun, 4 Feb 2024 16:23:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 19:03:42.031516
- Title: NavHint: Vision and Language Navigation Agent with a Hint Generator
- Title(参考訳): NavHint:ヒント発電機を用いた視覚・言語ナビゲーションエージェント
- Authors: Yue Zhang, Quan Guo, Parisa Kordjamshidi
- Abstract要約: 我々は、詳細な視覚的記述を提供するヒント生成装置を通じて、ナビゲーションエージェントに対して間接的な監視を行う。
ヒントジェネレータは、ナビゲーションエージェントが視覚環境のグローバルな理解を開発するのを支援する。
提案手法をR2RとR4Rのデータセット上で評価し,いくつかの指標で最先端を実現する。
- 参考スコア(独自算出の注目度): 31.322331792911598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing work on vision and language navigation mainly relies on
navigation-related losses to establish the connection between vision and
language modalities, neglecting aspects of helping the navigation agent build a
deep understanding of the visual environment. In our work, we provide indirect
supervision to the navigation agent through a hint generator that provides
detailed visual descriptions. The hint generator assists the navigation agent
in developing a global understanding of the visual environment. It directs the
agent's attention toward related navigation details, including the relevant
sub-instruction, potential challenges in recognition and ambiguities in
grounding, and the targeted viewpoint description. To train the hint generator,
we construct a synthetic dataset based on landmarks in the instructions and
visible and distinctive objects in the visual environment. We evaluate our
method on the R2R and R4R datasets and achieve state-of-the-art on several
metrics. The experimental results demonstrate that generating hints not only
enhances the navigation performance but also helps improve the interpretability
of the agent's actions.
- Abstract(参考訳): 既存の視覚と言語ナビゲーションの研究は主に、視覚と言語モダリティの接続を確立するためにナビゲーション関連の損失に依存しており、ナビゲーションエージェントが視覚環境を深く理解するのを助ける側面を無視している。
本研究では,詳細な視覚的記述を提供するヒント生成器を用いて,ナビゲーションエージェントに対して間接的な監督を行う。
ヒント生成器は、視覚環境のグローバル理解を開発するためのナビゲーションエージェントを支援する。
関連するサブインストラクション、認識における潜在的な課題と接地における曖昧さ、対象とする視点記述を含む、関連するナビゲーション詳細に対するエージェントの注意を向ける。
ヒント生成装置を訓練するために,指示のランドマークと視覚環境の視覚的および視覚的特徴に基づく合成データセットを構築した。
提案手法をR2RとR4Rのデータセット上で評価し,いくつかの指標を用いて最先端の手法を実現する。
実験の結果, 生成ヒントはナビゲーション性能を高めるだけでなく, エージェントの動作の解釈性の向上にも有効であることがわかった。
関連論文リスト
- Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - VLN-Trans: Translator for the Vision and Language Navigation Agent [23.84492755669486]
ナビゲーションエージェントのためのトランスレータモジュールを設計し、元の命令を簡単に追従できるサブ命令表現に変換する。
我々は、新しい合成サブインストラクションデータセットを作成し、トランスレータとナビゲーションエージェントを訓練するための特定のタスクを設計する。
本研究では,Room2Room(R2R),Room4room(R4R),Room2Room Last(R2R-Last)データセットについて検討した。
論文 参考訳(メタデータ) (2023-02-18T04:19:51Z) - What do navigation agents learn about their environment? [39.74076893981299]
本稿では、ポイントゴールナビゲーションエージェントとオブジェクトゴールナビゲーションエージェントのための、エンボディード・アグエント(iSEE)の解釈可能性システムについて紹介する。
これらのエージェントが生成する動的表現をiSEEを用いて探索し,エージェントや環境に関する情報を提示する。
論文 参考訳(メタデータ) (2022-06-17T01:33:43Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Improving Cross-Modal Alignment in Vision Language Navigation via
Syntactic Information [83.62098382773266]
ビジョン言語ナビゲーションは、エージェントが自然言語の指示に基づいて3D環境をナビゲートする必要があるタスクです。
命令と現在の視覚シーンの整合性を高めるために,依存木から派生した構文情報を利用したナビゲーションエージェントを提案する。
このエージェントは3つの言語による命令を含むroom-across-roomデータセットの新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-19T19:18:41Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。