論文の概要: EponaV2: Driving World Model with Comprehensive Future Reasoning
- arxiv url: http://arxiv.org/abs/2605.14696v1
- Date: Thu, 14 May 2026 11:12:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.786613
- Title: EponaV2: Driving World Model with Comprehensive Future Reasoning
- Title(参考訳): EponaV2: 総合的未来推論による世界モデル駆動
- Authors: Jiawei Xu, Zhizhou Zhong, Zhijian Shu, Mingkai Jia, Mingxiao Li, Jia-Wang Bian, Qian Zhang, Kaicheng Zhang, Jin Xie, Jian Yang, Wei Yin,
- Abstract要約: 本研究では,世界モデルを駆動する新しいパラダイムであるEponaV2を提案する。
人間のドライバーが3Dの幾何学と意味をどう予測するかに触発され、より包括的な未来の表現を予測するためにモデルを訓練する。
3Dとセマンティックなモダリティを抽出することで、我々のモデルは周囲の環境を深く理解することができる。
- 参考スコア(独自算出の注目度): 30.57460966414501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data scaling plays a pivotal role in the pursuit of general intelligence. However, the prevailing perception-planning paradigm in autonomous driving relies heavily on expensive manual annotations to supervise trajectory planning, which severely limits its scalability. Conversely, although existing perception-free driving world models achieve impressive driving performance, their real-world reasoning ability for planning is solely built on next frame image forecasting. Due to the lack of enough supervision, these models often struggle with comprehensive scene understanding, resulting in unsatisfactory trajectory planning. In this paper, we propose EponaV2, a novel paradigm of driving world models, which achieves high-quality planning with comprehensive future reasoning. Inspired by how human drivers anticipate 3D geometry and semantics, we train our model to forecast more comprehensive future representations, which can be additionally decoded to future geometry and semantic maps. Extracting the 3D and semantic modalities enables our model to deeply understand the surrounding environment, and the future prediction task significantly enhances the real-world reasoning capabilities of EponaV2, ultimately leading to improved trajectory planning. Moreover, inspired by the training recipe of Large Language Models (LLMs), we introduce a flow matching group relative policy optimization mechanism to further improve planning accuracy. The state-of-the-art (SOTA) performances of EponaV2 among perception-free models on three NAVSIM benchmarks (+1.3PDMS, +5.5EPDMS) demonstrate the effectiveness of our methods.
- Abstract(参考訳): データスケーリングは、汎用インテリジェンス追求において重要な役割を果たす。
しかし、自律運転における知覚計画パラダイムは、軌跡計画の監督に高価な手動アノテーションに大きく依存しており、スケーラビリティを著しく制限している。
逆に、既存の知覚のない運転世界モデルは印象的な運転性能を達成するが、実際の計画の推論能力は次のフレーム画像予測にのみ組み込まれている。
十分な監督が欠如しているため、これらのモデルは総合的なシーン理解に苦しむことが多く、不満足な軌道計画をもたらす。
本稿では,世界モデルを駆動する新しいパラダイムであるEponaV2を提案する。
人間のドライバーが3Dの幾何学と意味論を予想する方法に触発されて、より包括的な将来の表現を予測できるようにモデルを訓練し、将来の幾何学と意味地図にさらにデコードできる。
3Dおよびセマンティック・モダリティの抽出により,周辺環境の理解が深まり,将来予測タスクはEponaV2の実世界の推論能力を大幅に向上させ,最終的には軌道計画の改善につながる。
さらに,Large Language Models (LLMs) のトレーニングレシピにヒントを得て,フローマッチンググループ相対ポリシー最適化機構を導入し,計画精度をさらに向上する。
3つのNAVSIMベンチマーク(+1.3PDMS, +5.5EPDMS)における知覚自由モデルのうち、EponaV2の最先端(SOTA)性能は、我々の手法の有効性を実証している。
関連論文リスト
- HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation [83.31948299340782]
HERMES++は、単一のフレームワーク内で3Dシーン理解と将来の幾何学的予測を統合する統合駆動世界モデルである。
Hermes++は、将来のクラウド予測と3Dシーン理解タスクの両方において、優れたパフォーマンスと優れたスペシャリストのアプローチを実現している。
論文 参考訳(メタデータ) (2026-04-30T17:59:58Z) - DriveDreamer-Policy: A Geometry-Grounded World-Action Model for Unified Generation and Planning [44.543763428623976]
DriveDreamer-Policyは、深度生成、将来のビデオ生成、モーションプランニングを統合した統合運転ワールドアクションモデルである。
提案したモデルは、モジュラリティと遅延制御性を維持しながら、より一貫性のある未来とより情報のある駆動動作を生成する。
論文 参考訳(メタデータ) (2026-04-02T08:33:18Z) - Uni-World VLA: Interleaved World Modeling and Planning for Autonomous Driving [52.04950569530877]
我々は、将来のフレーム予測と軌道計画の密接なインターリーブを行う統合視覚言語行動モデルUni-World VLAを提案する。
提案手法は,高忠実度将来のフレーム予測を行いながら,競合する閉ループ計画性能を実現する。
論文 参考訳(メタデータ) (2026-03-28T14:39:51Z) - Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation [66.7879424097418]
We present WorldDrive, a holistic framework that couples scene generation and real-time planning through unified vision and motion representation。
動きの表現、視覚的表現、エゴ状態の間の単純な相互作用は、高品質でマルチモーダルな軌道を生成することができる。
NAVSIM、NAVSIM-v2、nuScenesベンチマークの実験は、WorldDriveが視覚のみの手法で主要な計画性能を達成することを示した。
論文 参考訳(メタデータ) (2026-03-16T07:59:39Z) - Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution [96.25314747309811]
将来的なシーンの進化と軌道計画を共同でモデル化する,新たなエンドツーエンドフレームワークであるSeerDriveを紹介する。
本手法はまず,周辺環境の動態を予測するために,将来の鳥眼ビュー(BEV)の表現を予測する。
2つの重要な要素がこれを可能にする:(1)予測されたBEV機能を軌道プランナーに注入する将来対応計画、(2)反復的なシーンモデリングと車両計画。
論文 参考訳(メタデータ) (2025-10-13T07:41:47Z) - DriveX: Omni Scene Modeling for Learning Generalizable World Knowledge in Autonomous Driving [20.197094443215963]
本稿では、動画から一般的なシーンのダイナミクスと全体像を学習する自己教師型世界モデルDriveXを提案する。
DriveXは,マルチモーダル監視3Dポイントクラウド予測,2Dセマンティック表現,イメージ生成を統合するモジュールであるOmni Scene Modeling (OSM)を導入した。
下流適応のために我々は,DriveXの予測から特徴を動的に集約し,タスク固有の推論を強化する統一パラダイムであるFuture Spatial Attention (FSA)を設計する。
論文 参考訳(メタデータ) (2025-05-25T17:27:59Z) - Semi-Supervised Vision-Centric 3D Occupancy World Model for Autonomous Driving [22.832008530490167]
2Dラベルの可能性を生かした半教師付き視覚中心型3D占有型世界モデルPreWorldを提案する。
PreWorldは、3D占有率予測、4D占有率予測、モーションプランニングタスクの競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-11T07:12:26Z) - A Survey of World Models for Autonomous Driving [55.520179689933904]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
今後の研究は、自己指導型表現学習、マルチモーダル融合、高度なシミュレーションにおける重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。