論文の概要: Drive&Gen: Co-Evaluating End-to-End Driving and Video Generation Models
- arxiv url: http://arxiv.org/abs/2510.06209v1
- Date: Tue, 07 Oct 2025 17:58:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.412783
- Title: Drive&Gen: Co-Evaluating End-to-End Driving and Video Generation Models
- Title(参考訳): Drive&Gen: エンドツーエンドの運転とビデオ生成モデルの評価
- Authors: Jiahao Wang, Zhenpei Yang, Yijing Bai, Yingwei Li, Yuliang Zou, Bo Sun, Abhijit Kundu, Jose Lezama, Luna Yue Huang, Zehao Zhu, Jyh-Jing Hwang, Dragomir Anguelov, Mingxing Tan, Chiyu Max Jiang,
- Abstract要約: 本稿では、E2Eドライバを利用した新しい統計手法を提案し、生成したビデオのリアリズムを評価する。
ビデオ生成モデルにより生成された合成データは,実世界のデータ収集に代わる費用対効果があることを示す。
- 参考スコア(独自算出の注目度): 33.32483442886097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generative models have sparked exciting new possibilities in the field of autonomous vehicles. Specifically, video generation models are now being explored as controllable virtual testing environments. Simultaneously, end-to-end (E2E) driving models have emerged as a streamlined alternative to conventional modular autonomous driving systems, gaining popularity for their simplicity and scalability. However, the application of these techniques to simulation and planning raises important questions. First, while video generation models can generate increasingly realistic videos, can these videos faithfully adhere to the specified conditions and be realistic enough for E2E autonomous planner evaluation? Second, given that data is crucial for understanding and controlling E2E planners, how can we gain deeper insights into their biases and improve their ability to generalize to out-of-distribution scenarios? In this work, we bridge the gap between the driving models and generative world models (Drive&Gen) to address these questions. We propose novel statistical measures leveraging E2E drivers to evaluate the realism of generated videos. By exploiting the controllability of the video generation model, we conduct targeted experiments to investigate distribution gaps affecting E2E planner performance. Finally, we show that synthetic data produced by the video generation model offers a cost-effective alternative to real-world data collection. This synthetic data effectively improves E2E model generalization beyond existing Operational Design Domains, facilitating the expansion of autonomous vehicle services into new operational contexts.
- Abstract(参考訳): 生成モデルの最近の進歩は、自動運転車の分野でエキサイティングな新しい可能性をもたらした。
具体的には、ビデオ生成モデルは制御可能な仮想テスト環境として探索されている。
同時に、エンド・ツー・エンド(E2E)駆動モデルは、従来のモジュラー自動運転システムに代わる合理化された代替品として登場し、そのシンプルさとスケーラビリティで人気を博している。
しかし,これらの手法をシミュレーションや計画に応用することは重要な疑問を提起する。
第一に、ビデオ生成モデルはますます現実的なビデオを生成することができるが、これらのビデオは特定の条件に忠実に準拠し、E2E自律型プランナーの評価に十分現実的か?
第二に、データがE2Eプランナの理解と制御に不可欠であることを考えると、偏見についてより深い洞察を得て、アウト・オブ・ディストリビューションシナリオに一般化する能力を改善するにはどうすればよいのか?
本研究では,駆動モデルと生成世界モデル(Drive&Gen)のギャップを埋め,これらの問題に対処する。
本稿では,E2Eドライバを利用した新しい統計手法を提案する。
映像生成モデルの制御性を利用して,E2Eプランナの性能に影響を及ぼす分布ギャップを調査する。
最後に,映像生成モデルが生成した合成データにより,実世界のデータ収集に代わる費用対効果が期待できることを示す。
この合成データは、既存のオペレーションデザインドメインを超えてE2Eモデルの一般化を効果的に改善し、自動運転車サービスの新たな運用コンテキストへの拡張を容易にする。
関連論文リスト
- A Survey of World Models for Autonomous Driving [55.520179689933904]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
今後の研究は、自己指導型表現学習、マルチモーダル融合、高度なシミュレーションにおける重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - EVA: An Embodied World Model for Future Video Anticipation [30.721105710709008]
ビデオ生成モデルは将来の状態をシミュレートする上で大きな進歩を遂げており、擬似シナリオにおける世界シミュレータとしての可能性を示している。
既存のモデルは、しばしば堅牢な理解が欠如しており、マルチステップの予測を実行したり、アウト・オブ・ディストリビューション(OOD)シナリオを処理する能力を制限する。
本稿では,映像予測の強化を目的とした中間的推論手法であるリフレクション・オブ・ジェネレーション(RoG)を提案する。
論文 参考訳(メタデータ) (2024-10-20T18:24:00Z) - DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。
私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文 参考訳(メタデータ) (2024-10-14T17:19:23Z) - GenDDS: Generating Diverse Driving Video Scenarios with Prompt-to-Video Generative Model [6.144680854063938]
GenDDSは、自律運転システムの運転シナリオを生成するための新しいアプローチである。
我々は、実際の運転ビデオを含むKITTIデータセットを使用して、モデルをトレーニングする。
実世界の運転シナリオの複雑さと変動性を密に再現した高品質な運転映像を,我々のモデルで生成できることを実証した。
論文 参考訳(メタデータ) (2024-08-28T15:37:44Z) - GenAD: Generalized Predictive Model for Autonomous Driving [75.39517472462089]
本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。
我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。
アクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-03-14T17:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。