論文の概要: Recursive Visual Imagination and Adaptive Linguistic Grounding for Vision Language Navigation
- arxiv url: http://arxiv.org/abs/2507.21450v1
- Date: Tue, 29 Jul 2025 02:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.559359
- Title: Recursive Visual Imagination and Adaptive Linguistic Grounding for Vision Language Navigation
- Title(参考訳): 視覚言語ナビゲーションのための帰納的ビジュアルイマジネーションと適応型言語接地
- Authors: Bolei Chen, Jiaxu Kang, Yifei Wang, Ping Zhong, Qi Wu, Jianxin Wang,
- Abstract要約: 視覚言語ナビゲーション(VLN)は通常、エージェントが言語命令に従うことで、未知のシーンで特定のオブジェクトやリモートリージョンにナビゲートする必要がある。
現在のエージェントは、過度に詳細なシーン表現と曖昧な視覚言語アライメントに悩まされている。
そこで本稿では,言語基盤を強化するための命令に適応的に対応した,双方向の視覚知覚を要約したナビゲーションポリシーを提案する。
- 参考スコア(独自算出の注目度): 25.111153186227728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Navigation (VLN) typically requires agents to navigate to specified objects or remote regions in unknown scenes by obeying linguistic commands. Such tasks require organizing historical visual observations for linguistic grounding, which is critical for long-sequence navigational decisions. However, current agents suffer from overly detailed scene representation and ambiguous vision-language alignment, which weaken their comprehension of navigation-friendly high-level scene priors and easily lead to behaviors that violate linguistic commands. To tackle these issues, we propose a navigation policy by recursively summarizing along-the-way visual perceptions, which are adaptively aligned with commands to enhance linguistic grounding. In particular, by structurally modeling historical trajectories as compact neural grids, several Recursive Visual Imagination (RVI) techniques are proposed to motivate agents to focus on the regularity of visual transitions and semantic scene layouts, instead of dealing with misleading geometric details. Then, an Adaptive Linguistic Grounding (ALG) technique is proposed to align the learned situational memories with different linguistic components purposefully. Such fine-grained semantic matching facilitates the accurate anticipation of navigation actions and progress. Our navigation policy outperforms the state-of-the-art methods on the challenging VLN-CE and ObjectNav tasks, showing the superiority of our RVI and ALG techniques for VLN.
- Abstract(参考訳): 視覚言語ナビゲーション(VLN)は通常、エージェントが言語命令に従うことで、未知のシーンで特定のオブジェクトやリモートリージョンにナビゲートする必要がある。
このようなタスクは、長期にわたるナビゲーション決定にとって重要な言語的接地のための歴史的視覚的観察の組織化を必要とする。
しかし、現在のエージェントは、過度に詳細なシーン表現と曖昧な視覚言語アライメントに悩まされており、ナビゲーションフレンドリーなハイレベルシーンの理解が弱まり、言語命令に反する行動に容易に導かれる。
これらの課題に対処するために、言語基盤を強化するためにコマンドと適応的に一致した双方向の視覚知覚を再帰的に要約してナビゲーションポリシーを提案する。
特に、歴史的軌跡をコンパクトなニューラルネットワークとして構造的にモデル化することにより、幾つものRecursive Visual Imagination (RVI)技術が提案される。
そして、学習した状況記憶と異なる言語成分を意図的に整合させるために、適応言語グラウンドディング(ALG)手法を提案する。
このようなきめ細かいセマンティックマッチングは、ナビゲーションアクションと進捗の正確な予測を促進する。
我々のナビゲーションポリシーは、VLN-CEおよびObjectNavタスクにおける最先端の手法よりも優れており、VLNに対するRVIおよびALG技術の優位性を示している。
関連論文リスト
- UAV-VLN: End-to-End Vision Language guided Navigation for UAVs [0.0]
AI誘導の自律性における中核的な課題は、エージェントが以前見えなかった環境で現実的で効果的にナビゲートできるようにすることである。
UAV-VLNは無人航空機(UAV)のための新しいエンドツーエンドビジョンランゲージナビゲーションフレームワークである。
本システムでは,自由形式の自然言語命令を解釈し,視覚的観察に利用し,多様な環境下で実現可能な航空軌道を計画する。
論文 参考訳(メタデータ) (2025-04-30T08:40:47Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - ESceme: Vision-and-Language Navigation with Episodic Scene Memory [72.69189330588539]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
論文 参考訳(メタデータ) (2023-03-02T07:42:07Z) - Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation [120.90387630691816]
VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
論文 参考訳(メタデータ) (2021-04-09T02:44:39Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。