論文の概要: MWM: Mobile World Models for Action-Conditioned Consistent Prediction
- arxiv url: http://arxiv.org/abs/2603.07799v1
- Date: Sun, 08 Mar 2026 20:54:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.286517
- Title: MWM: Mobile World Models for Action-Conditioned Consistent Prediction
- Title(参考訳): MWM:アクション駆動一貫性予測のためのモバイルワールドモデル
- Authors: Han Yan, Zishang Xiang, Zeyu Zhang, Hao Tang,
- Abstract要約: 計画に基づく画像ゴールナビゲーションのためのモバイルワールドモデルを提案する。
本稿では,Action-Conditioned Consistency (ACC)ポストトレーニングと事前トレーニングを組み合わせた2段階のトレーニングフレームワークを導入し,ロールアウト一貫性を改善した。
ベンチマークと実世界のタスクに関する実験は、視覚的忠実度、軌跡精度、計画成功、推論効率が一貫した向上を示した。
- 参考スコア(独自算出の注目度): 19.819967401664464
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: World models enable planning in imagined future predicted space, offering a promising framework for embodied navigation. However, existing navigation world models often lack action-conditioned consistency, so visually plausible predictions can still drift under multi-step rollout and degrade planning. Moreover, efficient deployment requires few-step diffusion inference, but existing distillation methods do not explicitly preserve rollout consistency, creating a training-inference mismatch. To address these challenges, we propose MWM, a mobile world model for planning-based image-goal navigation. Specifically, we introduce a two-stage training framework that combines structure pretraining with Action-Conditioned Consistency (ACC) post-training to improve action-conditioned rollout consistency. We further introduce Inference-Consistent State Distillation (ICSD) for few-step diffusion distillation with improved rollout consistency. Our experiments on benchmark and real-world tasks demonstrate consistent gains in visual fidelity, trajectory accuracy, planning success, and inference efficiency. Code: https://github.com/AIGeeksGroup/MWM. Website: https://aigeeksgroup.github.io/MWM.
- Abstract(参考訳): 世界モデルは将来の予測された空間での計画を可能にし、実現可能なナビゲーションのフレームワークを提供する。
しかし、既存のナビゲーションワールドモデルはアクション条件の整合性に欠けることが多いため、視覚的に妥当な予測は、マルチステップのロールアウトとデグレード計画の下でもドリフトすることができる。
さらに, 効率的な展開には数段階の拡散予測が必要であるが, 既存の蒸留法ではロールアウト一貫性を明示的に保たず, トレーニング推論ミスマッチが生じる。
これらの課題に対処するために,計画に基づく画像ゴールナビゲーションのためのモバイルワールドモデルMWMを提案する。
具体的には,Action-Conditioned Consistency (ACC)ポストトレーニングと事前トレーニングを組み合わせた2段階のトレーニングフレームワークを導入し,動作条件付きロールアウトの整合性を改善する。
さらに, ロールアウトの整合性を改善した数段階の拡散蒸留法として, ICSDを導入する。
ベンチマークと実世界のタスクに関する実験は、視覚的忠実度、軌跡精度、計画成功、推論効率が一貫した向上を示した。
コード:https://github.com/AIGeeksGroup/MWM。
Webサイト: https://aigeeksgroup.github.io/MWM.com
関連論文リスト
- DDP-WM: Disentangled Dynamics Prediction for Efficient World Models [79.53092337527382]
本稿では,DDP-WMについて紹介する。DDP-WMはDDP-WM(Distangled Dynamics Prediction)の原理に基づく新しい世界モデルである。
DDP-WMは、効率的な履歴処理と動的ローカライゼーションを統合したアーキテクチャにより、この分解を実現する。
実験により、DDP-WMは様々なタスクにおいて、大幅な効率と性能を達成することが示された。
論文 参考訳(メタデータ) (2026-02-02T08:04:25Z) - AstraNav-World: World Model for Foresight Control and Consistency [40.07910402326578]
ダイナミックな環境での身体的ナビゲーションは、世界がどのように進化し、どのように行動が時間とともに広がるかを正確に予測する必要がある。
AstraNav-Worldは、未来の視覚状態とアクションシーケンスを共同で推論するエンド・ツー・エンドの世界モデルである。
本フレームワークは,拡散型ビデオジェネレータとビジョン言語ポリシーを統合し,同期ロールアウトを実現する。
論文 参考訳(メタデータ) (2025-12-25T15:31:24Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - From Forecasting to Planning: Policy World Model for Collaborative State-Action Prediction [57.56072009935036]
政策世界モデル(PWM)と呼ばれる新しい運転パラダイムを導入する。
PWMは、統一アーキテクチャ内での世界モデリングと軌道計画を統合する。
提案手法は,マルチビューおよびマルチモーダル入力に依存する最先端の手法に適合するか,あるいは超越する。
論文 参考訳(メタデータ) (2025-10-22T14:57:51Z) - Unified World Models: Memory-Augmented Planning and Foresight for Visual Navigation [69.94565127141483]
現在のアプローチでは、ナビゲーション計画とビジュアルワールドモデリングが分離されており、状態-アクションのミスアライメントと適応性の制限につながっている。
一つのマルチモーダル自己回帰バックボーン内に、自我中心の視線と計画を統合する統一されたメモリ拡張世界モデルUniWMを提案する。
我々は,UniWMが航法成功率を最大30%向上し,トラジェクトリエラーを強いベースラインと比較して著しく低減し,未確認のTartanDriveデータセットに印象的なゼロショット一般化を示すことを示した。
論文 参考訳(メタデータ) (2025-10-09T18:18:11Z) - MinD: Learning A Dual-System World Model for Real-Time Planning and Implicit Risk Analysis [32.08769443927576]
我々は、リアルタイム・リスク対応計画のためのデュアルシステム・ワールドモデルであるManipulate in Dream (MinD)を提案する。
MinDは2つの非同期拡散プロセスを使用する: 将来のシーンを予測する低周波ビジュアルジェネレータ(LoDiff)とアクションを出力する高周波拡散ポリシー(HiDiff)である。
私たちの重要な洞察は、ロボットポリシーが完全に認知されたフレームを必要とせず、単一の認知ステップで生成された低解像度の潜伏剤に頼ることができるということです。
MinDがRL-Benchで63%の成功率、実世界のFrankaタスクで60%、11.3FPSで稼働
論文 参考訳(メタデータ) (2025-06-23T17:59:06Z) - Predictive Planner for Autonomous Driving with Consistency Models [5.966385886363771]
軌道予測と計画は、自動運転車が動的環境下で安全かつ効率的に走行するために不可欠である。
近年の拡散型生成モデルはマルチエージェント軌道生成において有望であるが,その遅いサンプリングは高周波計画タスクには適さない。
我々は,エゴ車両の航法目標に基づいて,エゴと周辺エージェントの共同分布からサンプルを採取する予測プランナを構築するために,一貫性モデルを活用する。
論文 参考訳(メタデータ) (2025-02-12T00:26:01Z) - Bootstrap Motion Forecasting With Self-Consistent Constraints [52.88100002373369]
自己整合性制約を用いた動き予測をブートストラップする新しい枠組みを提案する。
運動予測タスクは、過去の空間的・時間的情報を組み込むことで、車両の将来の軌跡を予測することを目的としている。
提案手法は,既存手法の予測性能を常に向上することを示す。
論文 参考訳(メタデータ) (2022-04-12T14:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。