論文の概要: DriveLaW:Unifying Planning and Video Generation in a Latent Driving World
- arxiv url: http://arxiv.org/abs/2512.23421v2
- Date: Wed, 31 Dec 2025 02:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 13:52:31.631627
- Title: DriveLaW:Unifying Planning and Video Generation in a Latent Driving World
- Title(参考訳): DriveLaW:潜在運転の世界における計画とビデオ生成の統合
- Authors: Tianze Xia, Yongkang Li, Lijun Zhou, Jingfeng Yao, Kaixin Xiong, Haiyang Sun, Bing Wang, Kun Ma, Guang Chen, Hangjun Ye, Wenyu Liu, Xinggang Wang,
- Abstract要約: 本稿では,ビデオ生成とモーションプランニングを統合した新しいパラダイムであるDriveLaWを提案する。
DriveLaWは2つのコアコンポーネントから構成される: DriveLaW-Video、表現的潜在表現による高忠実度予測を生成する強力な世界モデルDriveLaW-Act、拡散プランナDriveLaW-Act。
DriveLaWはビデオ予測を大幅に進歩させ、FIDが33.3%、FVDが1.8%向上しただけでなく、NAVSIM計画ベンチマークでも新たな記録を達成している。
- 参考スコア(独自算出の注目度): 40.4279880486975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models have become crucial for autonomous driving, as they learn how scenarios evolve over time to address the long-tail challenges of the real world. However, current approaches relegate world models to limited roles: they operate within ostensibly unified architectures that still keep world prediction and motion planning as decoupled processes. To bridge this gap, we propose DriveLaW, a novel paradigm that unifies video generation and motion planning. By directly injecting the latent representation from its video generator into the planner, DriveLaW ensures inherent consistency between high-fidelity future generation and reliable trajectory planning. Specifically, DriveLaW consists of two core components: DriveLaW-Video, our powerful world model that generates high-fidelity forecasting with expressive latent representations, and DriveLaW-Act, a diffusion planner that generates consistent and reliable trajectories from the latent of DriveLaW-Video, with both components optimized by a three-stage progressive training strategy. The power of our unified paradigm is demonstrated by new state-of-the-art results across both tasks. DriveLaW not only advances video prediction significantly, surpassing best-performing work by 33.3% in FID and 1.8% in FVD, but also achieves a new record on the NAVSIM planning benchmark.
- Abstract(参考訳): 現実の世界の長い課題に対処するために、シナリオが時間とともにどのように進化するかを学ぶことで、世界モデルは自律運転にとって重要になっています。
しかし、現在のアプローチは、世界モデルを限定的な役割に還元する。それらは、世界予測とモーションプランニングを分離されたプロセスとして維持する、目に見える統合されたアーキテクチャの中で機能する。
このギャップを埋めるために、ビデオ生成とモーションプランニングを統合する新しいパラダイムであるDriveLaWを提案する。
ビデオジェネレータから遅延表現を直接プランナに注入することにより、DriveLaWは、高忠実度将来の生成と信頼性の高い軌道計画との間の固有の一貫性を保証する。
DriveLaW-Videoは2つのコアコンポーネントから構成される: DriveLaW-Videoは、表現的潜在表現で高忠実な予測を生成する強力な世界モデルであり、DriveLaW-Actは3段階のプログレッシブトレーニング戦略によって最適化されたDriveLaW-Videoの潜時から一貫した信頼性の高い軌跡を生成する拡散プランナーである。
統一パラダイムのパワーは、両方のタスクにまたがる新しい最先端の結果によって実証されます。
DriveLaWはビデオ予測を大幅に進歩させ、FIDが33.3%、FVDが1.8%向上しただけでなく、NAVSIM計画ベンチマークでも新たな記録を達成している。
関連論文リスト
- ViLaD: A Large Vision Language Diffusion Framework for End-to-End Autonomous Driving [14.486548540613791]
エンド・ツー・エンド・エンドの自動運転のための新しいLarge Vision Language DiffusionフレームワークであるViLaDを紹介する。
ViLaDは、駆動決定シーケンス全体の並列生成を可能にし、計算遅延を大幅に削減する。
我々はnuScenesデータセットの総合的な実験を行い、ViLaDは最先端の自己回帰的VLMベースラインを計画精度と推論速度の両方で上回ります。
論文 参考訳(メタデータ) (2025-08-18T04:01:56Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT [33.943125216555316]
我々は、自動運転のためのGPTスタイルの世界モデルであるDrivingWorldを紹介する。
本稿では,連続フレーム間の時間的コヒーレンスをモデル化する次世代予測手法を提案する。
また,長期ドリフト問題を軽減するため,トークン予測のための新しいマスキング戦略と再重み付け戦略を提案する。
論文 参考訳(メタデータ) (2024-12-27T07:44:07Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。
私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文 参考訳(メタデータ) (2024-10-14T17:19:23Z) - Driving into the Future: Multiview Visual Forecasting and Planning with
World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。
ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文 参考訳(メタデータ) (2023-11-29T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。