論文の概要: DriveDreamer-Policy: A Geometry-Grounded World-Action Model for Unified Generation and Planning
- arxiv url: http://arxiv.org/abs/2604.01765v1
- Date: Thu, 02 Apr 2026 08:33:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.616916
- Title: DriveDreamer-Policy: A Geometry-Grounded World-Action Model for Unified Generation and Planning
- Title(参考訳): DriveDreamer-Policy:一元化と計画のための幾何学的世界アクションモデル
- Authors: Yang Zhou, Xiaofeng Wang, Hao Shao, Letian Wang, Guosheng Zhao, Jiangnan Shao, Jiagang Zhu, Tingdong Yu, Zheng Zhu, Guan Huang, Steven L. Waslander,
- Abstract要約: DriveDreamer-Policyは、深度生成、将来のビデオ生成、モーションプランニングを統合した統合運転ワールドアクションモデルである。
提案したモデルは、モジュラリティと遅延制御性を維持しながら、より一貫性のある未来とより情報のある駆動動作を生成する。
- 参考スコア(独自算出の注目度): 44.543763428623976
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, world-action models (WAM) have emerged to bridge vision-language-action (VLA) models and world models, unifying their reasoning and instruction-following capabilities and spatio-temporal world modeling. However, existing WAM approaches often focus on modeling 2D appearance or latent representations, with limited geometric grounding-an essential element for embodied systems operating in the physical world. We present DriveDreamer-Policy, a unified driving world-action model that integrates depth generation, future video generation, and motion planning within a single modular architecture. The model employs a large language model to process language instructions, multi-view images, and actions, followed by three lightweight generators that produce depth, future video, and actions. By learning a geometry-aware world representation and using it to guide both future prediction and planning within a unified framework, the proposed model produces more coherent imagined futures and more informed driving actions, while maintaining modularity and controllable latency. Experiments on the Navsim v1 and v2 benchmarks demonstrate that DriveDreamer-Policy achieves strong performance on both closed-loop planning and world generation tasks. In particular, our model reaches 89.2 PDMS on Navsim v1 and 88.7 EPDMS on Navsim v2, outperforming existing world-model-based approaches while producing higher-quality future video and depth predictions. Ablation studies further show that explicit depth learning provides complementary benefits to video imagination and improves planning robustness.
- Abstract(参考訳): 近年、世界行動モデル(WAM)は視覚言語行動モデル(VLA)と世界モデルを橋渡しし、その推論と指示追従能力と時空間的世界モデリングを統一している。
しかし、既存のWAMアプローチでは、物理世界で動作しているエンボディドシステムにとって、幾何学的な接地が欠如しているため、2Dの外観や潜伏表現のモデリングに重点を置いていることが多い。
DriveDreamer-Policyは、深度生成、将来のビデオ生成、モーションプランニングを単一のモジュラーアーキテクチャに統合した統合駆動ワールドアクションモデルである。
このモデルは、言語命令、マルチビューイメージ、アクションを処理するために大きな言語モデルを使用し、続いて深度、将来のビデオ、アクションを生成する3つの軽量ジェネレータが続く。
幾何学を意識した世界表現を学習し、それを統合されたフレームワーク内での将来の予測と計画の両方を導くことによって、提案モデルは、モジュール性と制御可能なレイテンシを維持しながら、より一貫性のある未来とより情報のある駆動行動を生成する。
Navsim v1とv2ベンチマークの実験では、DriveDreamer-Policyはクローズドループ計画とワールドジェネレーションタスクの両方で強力なパフォーマンスを実現している。
特に,Navsim v1では89.2 PDMS,Navsim v2では88.7 PDMSに到達し,既存の世界モデルベースのアプローチより優れ,高品質な映像・深度予測を実現している。
アブレーション研究は、明示的な深度学習がビデオの想像力に相補的な利点をもたらし、プランニングの堅牢性を改善することを示している。
関連論文リスト
- From Forecasting to Planning: Policy World Model for Collaborative State-Action Prediction [57.56072009935036]
政策世界モデル(PWM)と呼ばれる新しい運転パラダイムを導入する。
PWMは、統一アーキテクチャ内での世界モデリングと軌道計画を統合する。
提案手法は,マルチビューおよびマルチモーダル入力に依存する最先端の手法に適合するか,あるいは超越する。
論文 参考訳(メタデータ) (2025-10-22T14:57:51Z) - Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。
最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。
DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-10-01T13:07:05Z) - Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - FLIP: Flow-Centric Generative Planning as General-Purpose Manipulation World Model [2.9509867426905925]
本稿では,視覚空間のモデルベース計画アルゴリズムFLIPについて述べる。
FLIPは、オブジェクト、ロボット、タスクに対して、一般的なアクション表現としてイメージフローを持つ長い水平プランを合成することができる。
さらに、合成されたフローとビデオプランは、ロボットの実行のための低レベル制御ポリシーのトレーニングをガイドすることができる。
論文 参考訳(メタデータ) (2024-12-11T10:17:00Z) - DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。
私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文 参考訳(メタデータ) (2024-10-14T17:19:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。