論文の概要: DriveVA: Video Action Models are Zero-Shot Drivers
- arxiv url: http://arxiv.org/abs/2604.04198v1
- Date: Sun, 05 Apr 2026 17:43:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.977468
- Title: DriveVA: Video Action Models are Zero-Shot Drivers
- Title(参考訳): DriveVA:ビデオアクションモデルはゼロショットドライバ
- Authors: Mengmeng Liu, Diankun Zhang, Jiuming Liu, Jianfeng Cui, Hongwei Xie, Guang Chen, Hangjun Ye, Michael Ying Yang, Francesco Nex, Hao Cheng,
- Abstract要約: 現実のシナリオは目に見えない条件下での堅牢なパフォーマンスを必要とするため、一般化は自動運転における中心的な課題である。
近年のワールドモデルに基づく計画手法は、シーン理解とマルチモーダルな将来予測において強力な能力を示している。
本稿では,新しい自律運転世界モデルであるDriveVAを提案する。
- 参考スコア(独自算出の注目度): 23.675212404889805
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generalization is a central challenge in autonomous driving, as real-world deployment requires robust performance under unseen scenarios, sensor domains, and environmental conditions. Recent world-model-based planning methods have shown strong capabilities in scene understanding and multi-modal future prediction, yet their generalization across datasets and sensor configurations remains limited. In addition, their loosely coupled planning paradigm often leads to poor video-trajectory consistency during visual imagination. To overcome these limitations, we propose DriveVA, a novel autonomous driving world model that jointly decodes future visual forecasts and action sequences in a shared latent generative process. DriveVA inherits rich priors on motion dynamics and physical plausibility from well-pretrained large-scale video generation models to capture continuous spatiotemporal evolution and causal interaction patterns. To this end, DriveVA employs a DiT-based decoder to jointly predict future action sequences (trajectories) and videos, enabling tighter alignment between planning and scene evolution. We also introduce a video continuation strategy to strengthen long-duration rollout consistency. DriveVA achieves an impressive closed-loop performance of 90.9 PDM score on the challenge NAVSIM. Extensive experiments also demonstrate the zero-shot capability and cross-domain generalization of DriveVA, which reduces average L2 error and collision rate by 78.9% and 83.3% on nuScenes and 52.5% and 52.4% on the Bench2drive built on CARLA v2 compared with the state-of-the-art world-model-based planner.
- Abstract(参考訳): 現実の展開は、目に見えないシナリオ、センサードメイン、環境条件の下で堅牢なパフォーマンスを必要とするため、一般化は自動運転における中心的な課題である。
近年のワールドモデルに基づく計画手法は,シーン理解とマルチモーダルな将来予測において強力な能力を示しているが,データセットやセンサ構成の一般化は依然として限られている。
さらに、疎結合な計画パラダイムは、視覚的想像力の間にビデオ軌道の整合性が低下することが多い。
これらの制約を克服するために,我々は,将来の視覚予測と行動シーケンスを共有潜在生成プロセスで共同で復号する,新しい自律運転世界モデルであるDriveVAを提案する。
DriveVAは、よく訓練された大規模ビデオ生成モデルから、モーションダイナミクスと物理的可視性に関する豊富な先行を継承し、継続的な時空間進化と因果相互作用パターンをキャプチャする。
この目的のために、DriveVAはDiTベースのデコーダを使用して、将来のアクションシーケンス(トラジェクトリ)とビデオを共同で予測し、計画とシーンの進化の間により緊密なアライメントを可能にする。
また、長時間のロールアウト一貫性を強化するためのビデオ継続戦略も導入する。
DriveVA は NAVSIM で 90.9 PDM のクローズループ性能を実現している。
大規模な実験では、DriveVAのゼロショット能力とクロスドメインの一般化も示されており、これは平均的なL2エラーと衝突率を78.9%、nuScenesで83.3%、CARLA v2で作られたBench2driveで52.5%、52.4%削減する。
関連論文リスト
- GigaWorld-Policy: An Efficient Action-Centered World--Action Model [50.107640832046464]
GigaWorld-Policyはアクション中心のWAMで、2Dピクセルアクションのダイナミクスを学習し、オプションのビデオ生成で効率的なアクションデコーディングを可能にする。
実世界のロボットプラットフォームでの実験結果によると、GigaWorld-Policyは主要なWAMベースラインであるMotusの9倍高速で動作する。
論文 参考訳(メタデータ) (2026-03-18T00:52:02Z) - Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation [66.7879424097418]
We present WorldDrive, a holistic framework that couples scene generation and real-time planning through unified vision and motion representation。
動きの表現、視覚的表現、エゴ状態の間の単純な相互作用は、高品質でマルチモーダルな軌道を生成することができる。
NAVSIM、NAVSIM-v2、nuScenesベンチマークの実験は、WorldDriveが視覚のみの手法で主要な計画性能を達成することを示した。
論文 参考訳(メタデータ) (2026-03-16T07:59:39Z) - Chain of World: World Model Thinking in Latent Motion [24.24061036481793]
VLA(Vision-Language-Action)モデルはしばしば、視覚力学の基礎となる予測的・時間的・因果的構造を見落としている。
我々は,世界モデルの時間的推論を非絡み合いの潜在動作表現と統合する新しい「世界の連鎖」パラダイムであるCoWVLAを紹介した。
CoWVLAは、既存のワールドモデルおよび潜在アクションアプローチより優れ、適度な計算効率を達成する。
論文 参考訳(メタデータ) (2026-03-03T17:52:06Z) - mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - DriveX: Omni Scene Modeling for Learning Generalizable World Knowledge in Autonomous Driving [20.197094443215963]
本稿では、動画から一般的なシーンのダイナミクスと全体像を学習する自己教師型世界モデルDriveXを提案する。
DriveXは,マルチモーダル監視3Dポイントクラウド予測,2Dセマンティック表現,イメージ生成を統合するモジュールであるOmni Scene Modeling (OSM)を導入した。
下流適応のために我々は,DriveXの予測から特徴を動的に集約し,タスク固有の推論を強化する統一パラダイムであるFuture Spatial Attention (FSA)を設計する。
論文 参考訳(メタデータ) (2025-05-25T17:27:59Z) - HDVIO2.0: Wind and Disturbance Estimation with Hybrid Dynamics VIO [25.489747178670125]
フル6-DoF, トランスレーショナルおよびローテーション, 車両力学をモデル化し, それらをVIOに密に組み込むHDVIO2.0を提案する。
本システムでは,風速25km/hまでの実地飛行だけでなく,パブリックおよび新しいドローンダイナミックスデータセットを用いた実験における最先端手法の性能を超越している。
論文 参考訳(メタデータ) (2025-04-01T17:08:27Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - GenAD: Generalized Predictive Model for Autonomous Driving [75.39517472462089]
本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。
我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。
アクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-03-14T17:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。