論文の概要: DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2601.01528v1
- Date: Sun, 04 Jan 2026 13:36:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.466839
- Title: DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving
- Title(参考訳): DrivingGen: 自動運転における生成ビデオワールドモデルのための総合ベンチマーク
- Authors: Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander,
- Abstract要約: 我々は、生成駆動世界モデルのための最初の総合的なベンチマークであるDrivingGenを提示する。
DrivingGenは、駆動データセットとインターネットスケールのビデオソースの両方から収集されたさまざまな評価データセットを組み合わせる。
一般的なモデルは良く見えるが物理を破るが、運転に特化したものは現実的に動きを捉えているが、視界の質は遅れている。
- 参考スコア(独自算出の注目度): 49.11389494068169
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video generation models, as one form of world models, have emerged as one of the most exciting frontiers in AI, promising agents the ability to imagine the future by modeling the temporal evolution of complex scenes. In autonomous driving, this vision gives rise to driving world models: generative simulators that imagine ego and agent futures, enabling scalable simulation, safe testing of corner cases, and rich synthetic data generation. Yet, despite fast-growing research activity, the field lacks a rigorous benchmark to measure progress and guide priorities. Existing evaluations remain limited: generic video metrics overlook safety-critical imaging factors; trajectory plausibility is rarely quantified; temporal and agent-level consistency is neglected; and controllability with respect to ego conditioning is ignored. Moreover, current datasets fail to cover the diversity of conditions required for real-world deployment. To address these gaps, we present DrivingGen, the first comprehensive benchmark for generative driving world models. DrivingGen combines a diverse evaluation dataset curated from both driving datasets and internet-scale video sources, spanning varied weather, time of day, geographic regions, and complex maneuvers, with a suite of new metrics that jointly assess visual realism, trajectory plausibility, temporal coherence, and controllability. Benchmarking 14 state-of-the-art models reveals clear trade-offs: general models look better but break physics, while driving-specific ones capture motion realistically but lag in visual quality. DrivingGen offers a unified evaluation framework to foster reliable, controllable, and deployable driving world models, enabling scalable simulation, planning, and data-driven decision-making.
- Abstract(参考訳): ビデオ生成モデルは、世界モデルの1形態として、AIの最もエキサイティングなフロンティアの1つとして登場し、複雑なシーンの時間的進化をモデル化することによって、未来を想像する能力をエージェントに約束している。
このビジョンは、自動運転において、エゴとエージェントの未来を想像する生成シミュレーター、スケーラブルなシミュレーションの実現、コーナーケースの安全なテスト、リッチな合成データ生成といった、駆動の世界モデルを生み出します。
しかし、急成長する研究活動にもかかわらず、この分野は進歩を測り、優先順位を導くための厳格なベンチマークが欠けている。
既存の評価は、安全クリティカルな画像要因を無視する一般的なビデオメトリクス、軌跡の妥当性の定量化はめったに行われず、時間的・エージェントレベルの整合性は無視され、エゴ条件の制御性は無視される。
さらに、現在のデータセットは、現実世界のデプロイメントに必要な条件の多様性をカバーできない。
これらのギャップに対処するため、我々は、生成駆動世界モデルのための最初の包括的なベンチマークであるDrivingGenを提示する。
DrivingGenは、さまざまな天候、日時、地理的地域、複雑な操作にまたがる、運転データセットとインターネット規模のビデオソースの両方から算出されたさまざまな評価データセットと、視覚リアリズム、軌道の可視性、時間的一貫性、制御性といった、一連の新しいメトリクスを組み合わせる。
一般的なモデルは良く見えるが物理を破るが、運転特有のモデルはリアルに動きを捉えているが、視界の質は遅れている。
DrivingGenは、信頼性があり、制御可能で、デプロイ可能な駆動世界モデルを促進するための統一された評価フレームワークを提供し、スケーラブルなシミュレーション、計画、データ駆動意思決定を可能にする。
関連論文リスト
- DriveX: Omni Scene Modeling for Learning Generalizable World Knowledge in Autonomous Driving [20.197094443215963]
本稿では、動画から一般的なシーンのダイナミクスと全体像を学習する自己教師型世界モデルDriveXを提案する。
DriveXは,マルチモーダル監視3Dポイントクラウド予測,2Dセマンティック表現,イメージ生成を統合するモジュールであるOmni Scene Modeling (OSM)を導入した。
下流適応のために我々は,DriveXの予測から特徴を動的に集約し,タスク固有の推論を強化する統一パラダイムであるFuture Spatial Attention (FSA)を設計する。
論文 参考訳(メタデータ) (2025-05-25T17:27:59Z) - A Survey of World Models for Autonomous Driving [55.520179689933904]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
今後の研究は、自己指導型表現学習、マルチモーダル融合、高度なシミュレーションにおける重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - GenAD: Generalized Predictive Model for Autonomous Driving [75.39517472462089]
本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。
我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。
アクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-03-14T17:58:33Z) - Driving into the Future: Multiview Visual Forecasting and Planning with
World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。
ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文 参考訳(メタデータ) (2023-11-29T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。