論文の概要: UniDWM: Towards a Unified Driving World Model via Multifaceted Representation Learning
- arxiv url: http://arxiv.org/abs/2602.01536v1
- Date: Mon, 02 Feb 2026 02:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.84208
- Title: UniDWM: Towards a Unified Driving World Model via Multifaceted Representation Learning
- Title(参考訳): UniDWM:多面的表現学習による統一運転世界モデルを目指して
- Authors: Shuai Liu, Siheng Ren, Xiaoyao Zhu, Quanmin Liang, Zefeng Li, Qiang Li, Xin Hu, Kai Huang,
- Abstract要約: 我々は,多面的表現学習を通じて自律運転を促進する統一運転世界モデルUniDWMを提案する。
UniDWMは、物理的に基底化された状態空間として機能する構造と動的に認識された潜在世界表現を構築する。
- 参考スコア(独自算出の注目度): 10.275940472665647
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Achieving reliable and efficient planning in complex driving environments requires a model that can reason over the scene's geometry, appearance, and dynamics. We present UniDWM, a unified driving world model that advances autonomous driving through multifaceted representation learning. UniDWM constructs a structure- and dynamic-aware latent world representation that serves as a physically grounded state space, enabling consistent reasoning across perception, prediction, and planning. Specifically, a joint reconstruction pathway learns to recover the scene's structure, including geometry and visual texture, while a collaborative generation framework leverages a conditional diffusion transformer to forecast future world evolution within the latent space. Furthermore, we show that our UniDWM can be deemed as a variation of VAE, which provides theoretical guidance for the multifaceted representation learning. Extensive experiments demonstrate the effectiveness of UniDWM in trajectory planning, 4D reconstruction and generation, highlighting the potential of multifaceted world representations as a foundation for unified driving intelligence. The code will be publicly available at https://github.com/Say2L/UniDWM.
- Abstract(参考訳): 複雑な運転環境における信頼性と効率的な計画を達成するには、シーンの幾何学、外観、ダイナミクスを推論できるモデルが必要である。
我々は,多面的表現学習を通じて自律運転を促進する統一運転世界モデルUniDWMを提案する。
UniDWMは、物理的に基底付けられた状態空間として機能し、知覚、予測、計画にわたって一貫した推論を可能にする構造的および動的に認識された潜在世界表現を構築する。
具体的には、共同再建経路は、幾何学や視覚的テクスチャを含むシーンの構造を復元することを学ぶ一方、協調生成フレームワークは、条件付き拡散トランスフォーマを利用して、潜伏空間における将来の世界進化を予測する。
さらに、我々のUniDWMは、多面的表現学習のための理論的ガイダンスを提供するVAEの変種と見なせることを示す。
広汎な実験は、軌跡計画、4次元再構成および生成におけるUniDWMの有効性を示し、統合運転インテリジェンスの基礎として多面世界表現の可能性を強調している。
コードはhttps://github.com/Say2L/UniDWM.comで公開されている。
関連論文リスト
- Unified World Models: Memory-Augmented Planning and Foresight for Visual Navigation [69.94565127141483]
現在のアプローチでは、ナビゲーション計画とビジュアルワールドモデリングが分離されており、状態-アクションのミスアライメントと適応性の制限につながっている。
一つのマルチモーダル自己回帰バックボーン内に、自我中心の視線と計画を統合する統一されたメモリ拡張世界モデルUniWMを提案する。
我々は,UniWMが航法成功率を最大30%向上し,トラジェクトリエラーを強いベースラインと比較して著しく低減し,未確認のTartanDriveデータセットに印象的なゼロショット一般化を示すことを示した。
論文 参考訳(メタデータ) (2025-10-09T18:18:11Z) - Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。
最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。
DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-10-01T13:07:05Z) - GWM: Towards Scalable Gaussian World Models for Robotic Manipulation [53.51622803589185]
本稿では,ロボット操作のための世界モデルGawssian World Model (GWM)を提案する。
中心となるのは、潜伏拡散変換器(DiT)と3次元変分オートエンコーダを組み合わせることで、微粒なシーンレベルの将来の状態復元を可能にする。
シミュレーションと実世界の実験の両方で、GWMは多様なロボットのアクションに照らされた未来のシーンを正確に予測できる。
論文 参考訳(メタデータ) (2025-08-25T02:01:09Z) - TARDIS STRIDE: A Spatio-Temporal Road Image Dataset and World Model for Autonomy [44.85881816317044]
本研究では,360度パノラマ画像を相互接続した観測,状態,行動ノードに変換する方法を示す。
我々は、このデータセットをトランスフォーマーベースの生成ワールドモデルであるTARDISを介してベンチマークする。
我々は、制御可能な画像合成、命令追従、自律的自己制御、最先端のジオレファレンスなど、さまざまなエージェントタスクにおいて、堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-06-12T21:08:11Z) - DriveX: Omni Scene Modeling for Learning Generalizable World Knowledge in Autonomous Driving [20.197094443215963]
本稿では、動画から一般的なシーンのダイナミクスと全体像を学習する自己教師型世界モデルDriveXを提案する。
DriveXは,マルチモーダル監視3Dポイントクラウド予測,2Dセマンティック表現,イメージ生成を統合するモジュールであるOmni Scene Modeling (OSM)を導入した。
下流適応のために我々は,DriveXの予測から特徴を動的に集約し,タスク固有の推論を強化する統一パラダイムであるFuture Spatial Attention (FSA)を設計する。
論文 参考訳(メタデータ) (2025-05-25T17:27:59Z) - FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving [19.81442567260658]
本稿では,VLAを画像で考えることのできる視覚的テンポラルTフレームワークを提案する。
nuScenes と NAVSIM では、FSDrive は精度を改善し、衝突を減らす。
論文 参考訳(メタデータ) (2025-05-23T09:55:32Z) - A Survey of World Models for Autonomous Driving [55.520179689933904]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
今後の研究は、自己指導型表現学習、マルチモーダル融合、高度なシミュレーションにおける重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。