論文の概要: Do Visual Imaginations Improve Vision-and-Language Navigation Agents?
- arxiv url: http://arxiv.org/abs/2503.16394v1
- Date: Thu, 20 Mar 2025 17:53:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:36:14.053437
- Title: Do Visual Imaginations Improve Vision-and-Language Navigation Agents?
- Title(参考訳): 視覚的イマジネーションは視覚・言語ナビゲーションエージェントを改善するか?
- Authors: Akhil Perincherry, Jacob Krantz, Stefan Lee,
- Abstract要約: VLN(Vision-and-Language Navigation)エージェントは、自然言語命令を使って見えない環境をナビゲートする。
本研究は,これらの指示によって示されるサブゴールの視覚的表現がナビゲーションの手がかりとなり,ナビゲーション性能が向上するかどうかを考察する。
- 参考スコア(独自算出の注目度): 16.503837141587447
- License:
- Abstract: Vision-and-Language Navigation (VLN) agents are tasked with navigating an unseen environment using natural language instructions. In this work, we study if visual representations of sub-goals implied by the instructions can serve as navigational cues and lead to increased navigation performance. To synthesize these visual representations or imaginations, we leverage a text-to-image diffusion model on landmark references contained in segmented instructions. These imaginations are provided to VLN agents as an added modality to act as landmark cues and an auxiliary loss is added to explicitly encourage relating these with their corresponding referring expressions. Our findings reveal an increase in success rate (SR) of around 1 point and up to 0.5 points in success scaled by inverse path length (SPL) across agents. These results suggest that the proposed approach reinforces visual understanding compared to relying on language instructions alone. Code and data for our work can be found at https://www.akhilperincherry.com/VLN-Imagine-website/.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)エージェントは、自然言語命令を使って見えない環境をナビゲートする。
本研究は,これらの指示によって示されるサブゴールの視覚的表現がナビゲーションの手がかりとなり,ナビゲーション性能が向上するかどうかを考察する。
これらの視覚的表現や想像を合成するために、セグメント化された命令に含まれるランドマーク参照にテキストから画像への拡散モデルを利用する。
これらの想像力は、ランドマークの手がかりとして機能するために付加的なモダリティとしてVLNエージェントに提供され、それに対応する参照表現と明示的に関連付けるために補助的な損失が加えられる。
以上の結果より, エージェント間の逆経路長(SPL)により, 成功率(SR)が約1ポイント, 最大0.5ポイント上昇することが判明した。
これらの結果から,提案手法は言語指導のみに頼らず,視覚的理解を強化することが示唆された。
私たちの仕事のコードとデータはhttps://www.akhilperincherry.com/VLN-Imagine-website/.comで確認できます。
関連論文リスト
- NavHint: Vision and Language Navigation Agent with a Hint Generator [31.322331792911598]
我々は、詳細な視覚的記述を提供するヒント生成装置を通じて、ナビゲーションエージェントに対して間接的な監視を行う。
ヒントジェネレータは、ナビゲーションエージェントが視覚環境のグローバルな理解を開発するのを支援する。
提案手法をR2RとR4Rのデータセット上で評価し,いくつかの指標で最先端を実現する。
論文 参考訳(メタデータ) (2024-02-04T16:23:16Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - VLN-Trans: Translator for the Vision and Language Navigation Agent [23.84492755669486]
ナビゲーションエージェントのためのトランスレータモジュールを設計し、元の命令を簡単に追従できるサブ命令表現に変換する。
我々は、新しい合成サブインストラクションデータセットを作成し、トランスレータとナビゲーションエージェントを訓練するための特定のタスクを設計する。
本研究では,Room2Room(R2R),Room4room(R4R),Room2Room Last(R2R-Last)データセットについて検討した。
論文 参考訳(メタデータ) (2023-02-18T04:19:51Z) - SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language
Navigation [57.12508968239015]
本研究は,トランスフォーマーを用いた視覚言語ナビゲーション (VLN) エージェントを提案する。
シーン分類ネットワークとオブジェクト検出器の2つの異なるビジュアルエンコーダを使用する。
シーン機能は、オブジェクトレベルの処理をサポートする高レベルなコンテキスト情報を提供する。
論文 参考訳(メタデータ) (2021-10-27T03:29:34Z) - Improving Cross-Modal Alignment in Vision Language Navigation via
Syntactic Information [83.62098382773266]
ビジョン言語ナビゲーションは、エージェントが自然言語の指示に基づいて3D環境をナビゲートする必要があるタスクです。
命令と現在の視覚シーンの整合性を高めるために,依存木から派生した構文情報を利用したナビゲーションエージェントを提案する。
このエージェントは3つの言語による命令を含むroom-across-roomデータセットの新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-19T19:18:41Z) - Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation [120.90387630691816]
VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
論文 参考訳(メタデータ) (2021-04-09T02:44:39Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - Improving Vision-and-Language Navigation with Image-Text Pairs from the
Web [75.08703115646613]
インストラクションとパノラマRGB画像の整合性を評価するための視覚言語変換モデルであるVLN-BERTを開発した。
具体的パスインストラクションデータに基づく微調整前,Webからの画像テキストペア上でのVLN-BERTの事前学習は,VLNの性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2020-04-30T17:22:40Z) - Sub-Instruction Aware Vision-and-Language Navigation [46.99329933894108]
視覚と言語のナビゲーションには、エージェントが自然言語の指示に従って実際の3D環境をナビゲートする必要がある。
視覚的および言語的シーケンスの粒度、および命令の完了によるエージェントのトレーサビリティに焦点を当てる。
本稿では,1つのサブインストラクションを各タイミングで選択・参加する効果的なサブインストラクション・アテンション・アテンションとシフトモジュールを提案する。
論文 参考訳(メタデータ) (2020-04-06T14:44:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。