論文の概要: UNeMo: Collaborative Visual-Language Reasoning and Navigation via a Multimodal World Model
- arxiv url: http://arxiv.org/abs/2511.18845v1
- Date: Mon, 24 Nov 2025 07:31:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.083136
- Title: UNeMo: Collaborative Visual-Language Reasoning and Navigation via a Multimodal World Model
- Title(参考訳): UNeMo: マルチモーダル世界モデルによる協調型ビジュアルランゲージ推論とナビゲーション
- Authors: Changxin Huang, Lv Tang, Zhaohuan Zhan, Lisha Yu, Runhao Zeng, Zun Liu, Zhengjie Wang, Jianqiang Li,
- Abstract要約: VLN(Vision-and-Language Navigation)は、視覚画像と自然言語による複雑な環境を自律的にナビゲートするエージェントである。
事前学習型大言語モデル(LLM)を用いた言語誘導ナビゲーション推論の強化に関する最近の研究は、有望な可能性を示している。
視覚状態推論とナビゲーション決定の協調最適化を目的とした新しいフレームワークUNeMoを紹介する。
- 参考スコア(独自算出の注目度): 19.343780691204792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) requires agents to autonomously navigate complex environments via visual images and natural language instruction--remains highly challenging. Recent research on enhancing language-guided navigation reasoning using pre-trained large language models (LLMs) has shown promising prospects. However, the reasoning of such methods is limited to the linguistic modality, lacking visual reasoning capabilities. Moreover, existing reasoning modules are optimized separately from navigation policies, leading to incompatibility and potential conflicts in optimization objectives. To tackle these challenges, we introduce UNeMo, a novel framework designed for the collaborative optimization of visual state reasoning and navigational decision-making. It introduces a Multimodal World Model (MWM) that takes visual features, language instructions, and navigational actions as inputs to jointly predict subsequent visual states, enabling cross-modal reasoning. Via a Hierarchical Prediction-Feedback (HPN) mechanism, MWM collaborates with navigation policies: the first layer generates actions using current vision-and-language features; MWM then infers post-action visual states to guide the second layer's fine-grained decisions. This forms a dynamic bidirectional promotion mechanism where MWM reasoning optimizes navigation policies, while policy decisions feedback to improve MWM's reasoning accuracy. Experiments on R2R and REVERIE datasets show UNeMo outperforms state-of-the-art methods by 2.1% and 0.7% in navigation accuracy for unseen scenes, validating its effectiveness.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、視覚イメージと自然言語による命令を通じて、複雑な環境を自律的にナビゲートするエージェントを必要とする。
事前学習型大言語モデル(LLM)を用いた言語誘導ナビゲーション推論の強化に関する最近の研究は、有望な可能性を示している。
しかし、そのような手法の推論は言語的モダリティに限られており、視覚的推論能力に欠ける。
さらに、既存の推論モジュールはナビゲーションポリシーとは独立して最適化されており、最適化の目的において非互換性と潜在的な競合をもたらす。
これらの課題に対処するために、視覚状態推論とナビゲーションによる意思決定の協調最適化を目的とした新しいフレームワークUNeMoを紹介する。
マルチモーダル世界モデル(MWM)を導入し、視覚的特徴、言語命令、ナビゲーションアクションを入力として、その後の視覚状態を共同で予測し、相互モーダル推論を可能にする。
階層的予測フィードバック(HPN)機構により、MWMはナビゲーションポリシーと協調する: 第一層は現在の視覚と言語機能を使用してアクションを生成し、MWMは後続の視覚状態を推論し、第二層のきめ細かな決定を導く。
MWM推論はナビゲーションポリシーを最適化し、ポリシー決定はMWMの推論精度を改善するためにフィードバックする。
R2RとREVERIEデータセットの実験では、UNeMoは未確認シーンのナビゲーション精度を2.1%と0.7%向上させ、その有効性を検証している。
関連論文リスト
- GoViG: Goal-Conditioned Visual Navigation Instruction Generation [69.79110149746506]
本稿では,Goal-Conditioned Visual Navigation Instruction Generation (GoViG)を紹介する。
GoViGは生のエゴセントリックな視覚データのみを活用し、目に見えない非構造環境への適応性を大幅に改善する。
論文 参考訳(メタデータ) (2025-08-13T07:05:17Z) - EvolveNav: Empowering LLM-Based Vision-Language Navigation via Self-Improving Embodied Reasoning [145.32076310071434]
EvolveNavは,適応的かつ一般化可能なナビゲーション推論を実現するための,新しい具体的推論パラダイムである。
EvolveNav は,(1) 形式化された CoT 監督ファインチューニング,(2) モデルが自己富化 CoT ラベルとして独自の推論出力で反復的に訓練され,監督の多様性を高めるために,モデルのナビゲーション推論能力を最初に活性化し,同時に推論速度を向上させるための形式化された CoT ラベルを用いてモデルを訓練する。
論文 参考訳(メタデータ) (2025-06-02T11:28:32Z) - Think Hierarchically, Act Dynamically: Hierarchical Multi-modal Fusion and Reasoning for Vision-and-Language Navigation [11.23342183103283]
Vision-and-Language Navigation (VLN)は、エンボディエージェントが自然言語の指示に従い、現実の環境でターゲットの場所に到達することを可能にすることを目的としている。
本稿では,視覚的観察,言語指導,ナビゲーション履歴の推論能力を高めるため,MFRA(Multi-level Fusion and Reasoning Architecture)を提案する。
論文 参考訳(メタデータ) (2025-04-23T08:41:27Z) - AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO [0.0]
大きな言語モデル(LLM)は、言語処理において印象的な能力を示してきたが、視覚的な空間的推論を必要とするタスクにしばしば苦労している。
迷路ナビゲーションのための視覚的推論能力を備えた標準LLMの2段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-20T16:05:18Z) - Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation [35.71602601385161]
本稿では,視覚言語モデル(VLM)に基づくナビゲーションフレームワークを提案する。
提案手法は,長期タスクにおける空間的推論と意思決定を促進する。
実験の結果,提案手法は従来のオブジェクトナビゲーションタスクの手法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-02-20T04:41:40Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。