論文の概要: UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving
- arxiv url: http://arxiv.org/abs/2601.04453v1
- Date: Wed, 07 Jan 2026 23:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.957581
- Title: UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving
- Title(参考訳): UniDrive-WM: 自律運転のための統一理解・計画・世界モデルの構築
- Authors: Zhexiao Xiong, Xin Ye, Burhan Yaman, Sheng Cheng, Yiren Lu, Jingru Luo, Nathan Jacobs, Liu Ren,
- Abstract要約: 本稿では,運転シーン理解,軌道計画,軌跡条件付き将来の画像生成を共同で行う,統一VLMベースの世界モデルを提案する。
Bench2Driveベンチマークの実験では、UniDrive-WMは高忠実な将来の画像を生成し、L2軌道誤差が5.9%、衝突速度が9.2%向上している。
- 参考スコア(独自算出の注目度): 29.623672055601418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models have become central to autonomous driving, where accurate scene understanding and future prediction are crucial for safe control. Recent work has explored using vision-language models (VLMs) for planning, yet existing approaches typically treat perception, prediction, and planning as separate modules. We propose UniDrive-WM, a unified VLM-based world model that jointly performs driving-scene understanding, trajectory planning, and trajectory-conditioned future image generation within a single architecture. UniDrive-WM's trajectory planner predicts a future trajectory, which conditions a VLM-based image generator to produce plausible future frames. These predictions provide additional supervisory signals that enhance scene understanding and iteratively refine trajectory generation. We further compare discrete and continuous output representations for future image prediction, analyzing their influence on downstream driving performance. Experiments on the challenging Bench2Drive benchmark show that UniDrive-WM produces high-fidelity future images and improves planning performance by 5.9% in L2 trajectory error and 9.2% in collision rate over the previous best method. These results demonstrate the advantages of tightly integrating VLM-driven reasoning, planning, and generative world modeling for autonomous driving. The project page is available at https://unidrive-wm.github.io/UniDrive-WM .
- Abstract(参考訳): 世界モデルは、正確な状況理解と将来の予測が安全管理に不可欠である自律運転の中心となっている。
近年の研究では、視覚言語モデル(VLM)を計画に使用することを検討したが、既存のアプローチでは認識、予測、計画を別々のモジュールとして扱うのが一般的である。
運転シーン理解,軌道計画,軌跡条件付き将来の画像生成を1つのアーキテクチャで共同で行う統合VLMベースの世界モデルであるUniDrive-WMを提案する。
UniDrive-WM のトラジェクトリプランナーは将来のトラジェクトリを予測する。
これらの予測は、シーン理解を強化し、軌道生成を反復的に洗練する追加の監視信号を提供する。
さらに、将来の画像予測のための離散的および連続的な出力表現を比較し、下流駆動性能への影響を分析した。
挑戦的なBench2Driveベンチマークの実験では、UniDrive-WMは高忠実な将来の画像を生成し、L2軌道誤差が5.9%、衝突速度が9.2%向上した。
これらの結果は、自律運転のためのVLM駆動推論、計画、生成的世界モデリングを密に統合する利点を示している。
プロジェクトのページはhttps://unidrive-wm.github.io/UniDrive-WM で公開されている。
関連論文リスト
- Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution [96.25314747309811]
将来的なシーンの進化と軌道計画を共同でモデル化する,新たなエンドツーエンドフレームワークであるSeerDriveを紹介する。
本手法はまず,周辺環境の動態を予測するために,将来の鳥眼ビュー(BEV)の表現を予測する。
2つの重要な要素がこれを可能にする:(1)予測されたBEV機能を軌道プランナーに注入する将来対応計画、(2)反復的なシーンモデリングと車両計画。
論文 参考訳(メタデータ) (2025-10-13T07:41:47Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model [18.56171397212777]
We present World4Drive, a end-to-end autonomous driving framework that using vision foundation model to build latent world model。
World4Driveは、オープンループのnuScenesとクローズループのNavSimベンチマークに手動の認識アノテーションなしで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-01T09:36:38Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。
LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。
この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - GenAD: Generative End-to-End Autonomous Driving [13.332272121018285]
GenADは、ジェネレーティブモデリング問題に自律運転を組み込むジェネレーティブフレームワークである。
本稿では,まず周囲のシーンをマップ対応のインスタンストークンに変換するインスタンス中心のシーントークン化手法を提案する。
次に、変動型オートエンコーダを用いて、軌道先行モデリングのための構造潜在空間における将来の軌道分布を学習する。
論文 参考訳(メタデータ) (2024-02-18T08:21:05Z) - Driving into the Future: Multiview Visual Forecasting and Planning with
World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。
ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文 参考訳(メタデータ) (2023-11-29T18:59:47Z) - ADriver-I: A General World Model for Autonomous Driving [23.22507419707926]
視覚特徴と制御信号の形式を統一するインターリーブド・ビジョン・アクション・ペアの概念を導入する。
ADriver-I と呼ばれる自律運転のためのMLLMと拡散モデルに基づく一般世界モデルを構築した。
視覚作用対を入力とし、現在のフレームの制御信号を自己回帰的に予測する。
論文 参考訳(メタデータ) (2023-11-22T17:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。