論文の概要: DriveWAM: Video Generative Priors Enable Scalable World-Action Modeling for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2605.28544v1
- Date: Wed, 27 May 2026 14:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.120928
- Title: DriveWAM: Video Generative Priors Enable Scalable World-Action Modeling for Autonomous Driving
- Title(参考訳): DriveWAM: 自律運転のためのスケーラブルなワールドアクションモデリングを可能にするビデオ生成プライオリティ
- Authors: Chen Shi, Jinrui Xu, Shaoshuai Shi, Kehua Sheng, Bo Zhang, Li Jiang,
- Abstract要約: 本稿では、事前学習したビデオ拡散変換器を自己回帰型ビデオアクションポリシーに適応させる駆動ワールドアクションモデルDriveWAMを提案する。
DriveWAMは、ビデオストリームとアクションストリームを統合された時間トークンシーケンスに編成し、それらをジョイントフローマッチングの目的の下でトレーニングする。
NAVSIMとPhysicalAI-Autonomous-Vehiclesベンチマークの実験は、DriveWAMが強力な計画性能を発揮することを示している。
- 参考スコア(独自算出の注目度): 19.231942908215174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained foundation models have become an important basis for end-to-end autonomous driving. In contrast to vision-language models pretrained primarily on static image-text pairs, video generative models capture temporal dynamics and motion priors that are naturally suited for driving. We present DriveWAM, a driving world-action model that adapts a pretrained video diffusion transformer into an autoregressive video-action policy. DriveWAM organizes video and action streams into a unified temporal token sequence and trains them under a joint flow-matching objective, preserving the pretrained video-generation architecture while adapting its large-scale video priors to action generation. To incorporate high-level scene understanding, we introduce scene-evolving driving guidance, where a frozen VLM produces chunk-specific semantic intent to guide video-action generation. To keep long-horizon rollout bounded, we further introduce selective KV memory, which maintains bounded modality-aware video and action memory pools through relevance-redundancy cache selection at inference time. Experiments on NAVSIM and the PhysicalAI-Autonomous-Vehicles benchmark show that DriveWAM achieves strong planning performance, and a data-scaling study from 4k to 100k driving clips further confirms the scaling potential of world-action modeling for end-to-end autonomous driving.
- Abstract(参考訳): 事前訓練された基礎モデルは、エンドツーエンドの自動運転にとって重要な基盤となっている。
視覚言語モデルは主に静的な画像とテキストのペアで訓練されているのとは対照的に、ビデオ生成モデルは、運転に自然に適する時間的ダイナミックスや動きの先行をキャプチャする。
本稿では、事前学習したビデオ拡散変換器を自己回帰型ビデオアクションポリシーに適応させる駆動ワールドアクションモデルDriveWAMを提案する。
DriveWAMは、ビデオストリームとアクションストリームを統合された時間トークンシーケンスに編成し、それらを共同フローマッチングの対象としてトレーニングし、トレーニング済みのビデオ生成アーキテクチャを維持しながら、大規模なビデオ生成をアクション生成に適応させる。
高レベルのシーン理解を取り入れるために,凍結したVLMがチャンク固有のセマンティックインテントを生成して映像アクション生成を誘導するシーン進化運転指導を導入する。
長い水平方向のロールアウトをバウンダリにするために、我々はさらに選択KVメモリを導入し、推論時に関連冗長キャッシュの選択を通じて、モダリティ対応ビデオとアクションメモリプールをバウンダリに保持する。
NAVSIMとPhysicalAI-Autonomous-Vehiclesベンチマークの実験では、DriveWAMはプランニング性能が優れており、4kから100kのドライビングクリップのデータスケーリング調査により、エンド・ツー・エンドの自動運転におけるワールド・アクション・モデリングのスケーリング可能性も確認されている。
関連論文リスト
- DriveVA: Video Action Models are Zero-Shot Drivers [23.675212404889805]
現実のシナリオは目に見えない条件下での堅牢なパフォーマンスを必要とするため、一般化は自動運転における中心的な課題である。
近年のワールドモデルに基づく計画手法は、シーン理解とマルチモーダルな将来予測において強力な能力を示している。
本稿では,新しい自律運転世界モデルであるDriveVAを提案する。
論文 参考訳(メタデータ) (2026-04-05T17:43:16Z) - HMPDM: A Diffusion Model for Driving Video Prediction with Historical Motion Priors [8.987844576502054]
本稿では,動きの理解と時間的コヒーレンスを高めるために,過去の動きを利用した映像予測モデルであるHMPDMを紹介する。
Cityscapes と KITTI ベンチマークの大規模な実験により、HMPDM は最先端のビデオ予測手法よりも効率が良いことが示された。
論文 参考訳(メタデータ) (2026-03-28T18:37:08Z) - Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation [66.7879424097418]
We present WorldDrive, a holistic framework that couples scene generation and real-time planning through unified vision and motion representation。
動きの表現、視覚的表現、エゴ状態の間の単純な相互作用は、高品質でマルチモーダルな軌道を生成することができる。
NAVSIM、NAVSIM-v2、nuScenesベンチマークの実験は、WorldDriveが視覚のみの手法で主要な計画性能を達成することを示した。
論文 参考訳(メタデータ) (2026-03-16T07:59:39Z) - Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos [20.73513310337503]
オンラインで利用できるエゴ中心の運転ビデオは、自動運転のための豊富な視覚的データを提供する。
本研究では,未提示ビデオから直接自律運転表現を学習するための,ラベルのない教師誘導型フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-25T16:38:53Z) - VaViM and VaVAM: Autonomous Driving through Video Generative Modeling [88.33638585518226]
本稿では,オープンソースの自動回帰ビデオモデル(VaM)とそのビデオアクションモデル(VaVAM)を紹介する。
オープンループ運転とクローズドループ運転のシナリオでモデルを評価したところ、ビデオベースの事前学習が自律運転の可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2025-02-21T18:56:02Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving [12.004604110512421]
視覚言語モデル(VLM)は、自律運転に影響を与える大きな可能性を持つ革命的ツールとして出現している。
本稿では,駆動ビデオを生成するためのDriveGenVLMフレームワークを提案し,それらを理解するためにVLMを使用する。
論文 参考訳(メタデータ) (2024-08-29T15:52:56Z) - GenAD: Generalized Predictive Model for Autonomous Driving [75.39517472462089]
本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。
我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。
アクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-03-14T17:58:33Z) - Driving into the Future: Multiview Visual Forecasting and Planning with
World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。
ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文 参考訳(メタデータ) (2023-11-29T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。