論文の概要: UniDriveDreamer: A Single-Stage Multimodal World Model for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2602.02002v1
- Date: Mon, 02 Feb 2026 12:02:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.125865
- Title: UniDriveDreamer: A Single-Stage Multimodal World Model for Autonomous Driving
- Title(参考訳): UniDriveDreamer: 自動運転のためのシングルステージマルチモーダル世界モデル
- Authors: Guosheng Zhao, Yaozeng Wang, Xiaofeng Wang, Zheng Zhu, Tingdong Yu, Guan Huang, Yongchen Zai, Ji Jiao, Changliang Xue, Xiaole Wang, Zhen Yang, Futang Zhu, Xingang Wang,
- Abstract要約: UniDriveDreamerは、自動運転のための単一ステージ統合マルチモーダル世界モデルである。
中間表現やカスケード加群に頼ることなく、マルチモーダルな将来の観測を生成する。
これは、ビデオとLiDAR生成の両方において、従来の最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 34.278528623978204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models have demonstrated significant promise for data synthesis in autonomous driving. However, existing methods predominantly concentrate on single-modality generation, typically focusing on either multi-camera video or LiDAR sequence synthesis. In this paper, we propose UniDriveDreamer, a single-stage unified multimodal world model for autonomous driving, which directly generates multimodal future observations without relying on intermediate representations or cascaded modules. Our framework introduces a LiDAR-specific variational autoencoder (VAE) designed to encode input LiDAR sequences, alongside a video VAE for multi-camera images. To ensure cross-modal compatibility and training stability, we propose Unified Latent Anchoring (ULA), which explicitly aligns the latent distributions of the two modalities. The aligned features are fused and processed by a diffusion transformer that jointly models their geometric correspondence and temporal evolution. Additionally, structured scene layout information is projected per modality as a conditioning signal to guide the synthesis. Extensive experiments demonstrate that UniDriveDreamer outperforms previous state-of-the-art methods in both video and LiDAR generation, while also yielding measurable improvements in downstream
- Abstract(参考訳): 世界モデルは、自動運転におけるデータ合成に大きな可能性を証明している。
しかし、既存の手法は主に単一モダリティ生成に集中しており、通常はマルチカメラビデオまたはLiDARシーケンス合成に重点を置いている。
本論文では,自律運転のための単一段階統合マルチモーダル世界モデルUniDriveDreamerを提案する。
本フレームワークでは,マルチカメラ画像用のビデオVAEとともに,入力されたLiDARシーケンスを符号化する,LiDAR固有の変分オートエンコーダ(VAE)を導入している。
そこで本研究では,2つのモードの潜在分布を明示的に整列するUnified Latent Anchoring (ULA)を提案する。
整列された特徴は、それらの幾何学的対応と時間的進化を共同でモデル化する拡散変圧器によって融合され、処理される。
さらに、構成されたシーンレイアウト情報は、合成を誘導する条件付け信号としてモード毎に投影される。
大規模な実験により、UniDriveDreamerはビデオとLiDARの両方で従来の最先端の手法よりも優れており、下流で測定可能な改善をもたらすことが示された。
関連論文リスト
- OmniGen: Unified Multimodal Sensor Generation for Autonomous Driving [58.693329943871355]
我々は,一貫したフレームワークでアライメントされたマルチモーダルセンサデータを生成するOminiGenを提案する。
このアプローチでは、共有のBirdu 2019s Eye View(BEV)スペースを活用して、マルチモーダル機能を統合する。
UAEはボリュームレンダリングによるマルチモーダルセンサデコーディングを実現し、正確で柔軟な再構築を可能にする。
論文 参考訳(メタデータ) (2025-12-16T09:18:15Z) - DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving [65.7087560656003]
エンドツーエンドの自動運転のための生成拡散モデルは、しばしばモード崩壊に悩まされる。
強化学習を利用して低品質モードを制約し,優れた軌道探索を行うDiffusionDriveV2を提案する。
これにより、そのコアであるガウス混合モデル固有の多重モード性を維持しながら、全体的な出力品質が大幅に向上する。
論文 参考訳(メタデータ) (2025-12-08T17:29:52Z) - WAM-Diff: A Masked Diffusion VLA Framework with MoE and Online Reinforcement Learning for Autonomous Driving [9.719456684859606]
WAM-Diffは、マスク拡散を利用して、将来のエゴ軌道を表す離散シーケンスを洗練するフレームワークである。
NAVSIM-v1では91.0PDMS, NAVSIM-v2では89.7Sを達成し, 自律運転におけるマスク拡散の有効性を示した。
論文 参考訳(メタデータ) (2025-12-06T10:51:53Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - TransDiffuser: Diverse Trajectory Generation with Decorrelated Multi-modal Representation for End-to-end Autonomous Driving [20.679370777762987]
エンコーダデコーダに基づく生成軌道計画モデルであるTransDiffuserを提案する。
単純なマルチモーダル表現デコレーションのデノナイジング過程におけるデコレーション最適化機構を利用する。
TransDiffuserは、クローズドループ計画指向ベンチマークNAVSIMで94.85のPDMSを達成する。
論文 参考訳(メタデータ) (2025-05-14T12:10:41Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - X-Drive: Cross-modality consistent multi-sensor data synthesis for driving scenarios [105.16073169351299]
本稿では,点雲と多視点画像の連成分布をモデル化する新しいフレームワーク,X-DRIVEを提案する。
2つのモダリティの異なる幾何学的空間を考えると、X-DRIVE条件は対応する局所領域上の各モダリティの合成である。
X-DRIVEはテキスト、バウンディングボックス、画像、点雲を含む多レベル入力条件を通じて制御可能な生成を可能にする。
論文 参考訳(メタデータ) (2024-11-02T03:52:12Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。