論文の概要: Unified World Models: Memory-Augmented Planning and Foresight for Visual Navigation
- arxiv url: http://arxiv.org/abs/2510.08713v1
- Date: Thu, 09 Oct 2025 18:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.907127
- Title: Unified World Models: Memory-Augmented Planning and Foresight for Visual Navigation
- Title(参考訳): Unified World Models: メモリ拡張計画とビジュアルナビゲーションの展望
- Authors: Yifei Dong, Fengyi Wu, Guangyu Chen, Zhi-Qi Cheng, Qiyu Hu, Yuxuan Zhou, Jingdong Sun, Jun-Yan He, Qi Dai, Alexander G Hauptmann,
- Abstract要約: 現在のアプローチでは、ナビゲーション計画とビジュアルワールドモデリングが分離されており、状態-アクションのミスアライメントと適応性の制限につながっている。
一つのマルチモーダル自己回帰バックボーン内に、自我中心の視線と計画を統合する統一されたメモリ拡張世界モデルUniWMを提案する。
我々は,UniWMが航法成功率を最大30%向上し,トラジェクトリエラーを強いベースラインと比較して著しく低減し,未確認のTartanDriveデータセットに印象的なゼロショット一般化を示すことを示した。
- 参考スコア(独自算出の注目度): 69.94565127141483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling embodied agents to effectively imagine future states is critical for robust and generalizable visual navigation. Current state-of-the-art approaches, however, adopt modular architectures that separate navigation planning from visual world modeling, leading to state-action misalignment and limited adaptability in novel or dynamic scenarios. To overcome this fundamental limitation, we propose UniWM, a unified, memory-augmented world model integrating egocentric visual foresight and planning within a single multimodal autoregressive backbone. Unlike modular frameworks, UniWM explicitly grounds action decisions in visually imagined outcomes, ensuring tight alignment between prediction and control. A hierarchical memory mechanism further integrates detailed short-term perceptual cues with longer-term trajectory context, enabling stable, coherent reasoning over extended horizons. Extensive experiments across four challenging benchmarks (Go Stanford, ReCon, SCAND, HuRoN) demonstrate that UniWM substantially improves navigation success rates by up to 30%, significantly reduces trajectory errors compared to strong baselines, and exhibits impressive zero-shot generalization on the unseen TartanDrive dataset. These results highlight UniWM as a principled step toward unified, imagination-driven embodied navigation.
- Abstract(参考訳): 将来の状態を効果的に想像するためのエンボディエージェントの導入は、堅牢で一般化可能なビジュアルナビゲーションにとって重要である。
しかし、現在の最先端のアプローチでは、ナビゲーション計画とビジュアルワールドモデリングを分離するモジュラーアーキテクチャを採用しており、新しいシナリオや動的シナリオにおいて、状態-アクションのミスアライメントと限定的な適応性をもたらす。
この基本的限界を克服するため、一本のマルチモーダル自己回帰バックボーン内に自我中心の視覚的フォレストと計画を統合する統一されたメモリ拡張世界モデルUniWMを提案する。
モジュラーフレームワークとは異なり、UniWMは視覚的に想像された結果にアクション決定を明示的に根拠付け、予測と制御の緊密な整合性を確保する。
階層記憶機構は、より詳細な短期的知覚的手がかりを長期的軌跡文脈と統合し、拡張された地平線上の安定した一貫性のある推論を可能にする。
挑戦的な4つのベンチマーク(Go Stanford、ReCon、SCAND、HuRoN)にわたる大規模な実験により、UniWMはナビゲーションの成功率を最大30%改善し、強いベースラインと比較して軌道誤差を著しく低減し、目に見えないTartanDriveデータセットに印象的なゼロショットの一般化を示す。
これらの結果は、UniWMを統合的、想像力駆動型エンボディナビゲーションへの原則的なステップとして強調する。
関連論文リスト
- Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z) - A Navigation Framework Utilizing Vision-Language Models [0.0]
VLN(Vision-and-Language Navigation)は、AIを具現化した複雑な課題である。
CLIPやFlamingoのような大規模視覚言語モデル(LVLM)の最近の進歩は、マルチモーダル理解を大幅に改善した。
動作計画から視覚言語理解を分離するモジュラー・プラグ・アンド・プレイナビゲーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-11T20:51:58Z) - DMWM: Dual-Mind World Model with Long-Term Imagination [53.98633183204453]
本稿では、論理的推論を統合し、論理的一貫性で想像力を発揮できる新しいデュアルミンド世界モデル(DMWM)を提案する。
提案するフレームワークは,DMControlスイートからの長期計画を必要とするベンチマークタスクに基づいて評価される。
論文 参考訳(メタデータ) (2025-02-11T14:40:57Z) - Navigation World Models [68.58459393846461]
本稿では,過去の観測とナビゲーション行動に基づいて,将来の視覚観測を予測できる制御可能な映像生成モデルを提案する。
慣れ親しんだ環境では、NWMはナビゲーションの軌道をシミュレートし、目的を達成するかどうかを評価することで計画することができる。
実験は、スクラッチからの軌道計画や、外部ポリシーからサンプリングされた軌道のランク付けにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2024-12-04T18:59:45Z) - Learning World Models for Unconstrained Goal Navigation [4.549550797148707]
本研究では,世界モデル学習のための目標指向探索アルゴリズムであるMUNを紹介する。
MUNは、リプレイバッファ内の任意のサブゴール状態間の状態遷移をモデル化することができる。
その結果、MUNは世界モデルの信頼性を高め、政策の一般化能力を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-11-03T01:35:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。