論文の概要: Cross from Left to Right Brain: Adaptive Text Dreamer for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2505.20897v1
- Date: Tue, 27 May 2025 08:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.52303
- Title: Cross from Left to Right Brain: Adaptive Text Dreamer for Vision-and-Language Navigation
- Title(参考訳): 左から右へ:視覚・言語ナビゲーションのための適応的テキストドリーマー
- Authors: Pingrui Zhang, Yifei Su, Pengyuan Wu, Dong An, Li Zhang, Zhigang Wang, Dong Wang, Yan Ding, Bin Zhao, Xuelong Li,
- Abstract要約: VLN(Vision-and-Language Navigation)は、エージェントが部分観測可能性の下で自然な指示に従うことでナビゲートする必要がある。
近年の手法は将来のシーンを想像することでこれを緩和するが、それらは視覚に基づく合成に依存している。
我々は,テキスト形式で重要な環境セマンティクスを適応的に想像し,より信頼性と効率的な戦略を実現することを提案する。
- 参考スコア(独自算出の注目度): 46.84289573813059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-Language Navigation (VLN) requires the agent to navigate by following natural instructions under partial observability, making it difficult to align perception with language. Recent methods mitigate this by imagining future scenes, yet they rely on vision-based synthesis, leading to high computational cost and redundant details. To this end, we propose to adaptively imagine key environmental semantics via \textit{language} form, enabling a more reliable and efficient strategy. Specifically, we introduce a novel Adaptive Text Dreamer (ATD), a dual-branch self-guided imagination policy built upon a large language model (LLM). ATD is designed with a human-like left-right brain architecture, where the left brain focuses on logical integration, and the right brain is responsible for imaginative prediction of future scenes. To achieve this, we fine-tune only the Q-former within both brains to efficiently activate domain-specific knowledge in the LLM, enabling dynamic updates of logical reasoning and imagination during navigation. Furthermore, we introduce a cross-interaction mechanism to regularize the imagined outputs and inject them into a navigation expert module, allowing ATD to jointly exploit both the reasoning capacity of the LLM and the expertise of the navigation model. We conduct extensive experiments on the R2R benchmark, where ATD achieves state-of-the-art performance with fewer parameters. The code is \href{https://github.com/zhangpingrui/Adaptive-Text-Dreamer}{here}.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、エージェントが部分的な可観測性の下で自然な指示に従うことで、知覚を言語と整合させることが困難になる。
近年の手法は将来の場面を想像することでこれを緩和するが、それらは視覚に基づく合成に依存しており、高い計算コストと冗長な詳細をもたらす。
そこで本稿では,より信頼性と効率的な戦略を実現するために,<textit{ Language} 形式による重要な環境意味論を適応的に想像することを提案する。
具体的には,大規模言語モデル (LLM) 上に構築された2分岐型自己誘導型イマジネーションポリシであるAdaptive Text Dreamer (ATD) を紹介する。
ATDは人間のような左脳アーキテクチャーで設計されており、左脳は論理的統合に焦点を当てており、右脳は将来のシーンを想像的に予測する役割を担っている。
これを実現するため、両脳内のQ-formerのみを微調整し、LLMにおけるドメイン固有の知識を効率的に活性化し、ナビゲーション中の論理的推論と想像力の動的更新を可能にする。
さらに,予測出力を正規化してナビゲーションエキスパートモジュールに注入するクロスインタラクション機構を導入し,LCMの推論能力とナビゲーションモデルの専門性の両方をATDが共同で活用できるようにする。
我々はR2Rベンチマークで広範な実験を行い、ATDはより少ないパラメータで最先端のパフォーマンスを達成する。
コードは \href{https://github.com/zhangpingrui/Adaptive-Text-Dreamer}{here} である。
関連論文リスト
- Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。
本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文 参考訳(メタデータ) (2024-09-04T08:30:03Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Pathdreamer: A World Model for Indoor Navigation [62.78410447776939]
本研究では,新しい屋内環境をナビゲートするエージェントの視覚的世界モデルPathdreamerを紹介する。
過去に1つ以上の視覚観測がなされると、パスドレーマーは可視性の高い高解像度の360度視覚観測を生成する。
不確実性の高い地域では、Pathdreamerは多様なシーンを予測でき、エージェントは複数の現実的な結果をサンプリングすることができる。
論文 参考訳(メタデータ) (2021-05-18T18:13:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。