論文の概要: Unleashing the Potential of Diffusion Models for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2602.22801v1
- Date: Thu, 26 Feb 2026 09:37:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.624836
- Title: Unleashing the Potential of Diffusion Models for End-to-End Autonomous Driving
- Title(参考訳): エンド・ツー・エンド自動運転における拡散モデルの可能性
- Authors: Yinan Zheng, Tianyi Tan, Bin Huang, Enguang Liu, Ruiming Liang, Jianlin Zhang, Jianwei Cui, Guang Chen, Kun Ma, Hangjun Ye, Long Chen, Ya-Qin Zhang, Xianyuan Zhan, Jingjing Liu,
- Abstract要約: 拡散モデルは、ロボット工学における意思決定タスクにおいて一般的な選択肢となっている。
自動運転車の応用と評価は、シミュレーションベースや実験室の設定に限られている。
我々の研究は、拡散モデルが適切に設計され、訓練されると、複雑な現実の自律運転タスクのための効果的なプランナーとして機能することを示した。
- 参考スコア(独自算出の注目度): 39.41125370032394
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models have become a popular choice for decision-making tasks in robotics, and more recently, are also being considered for solving autonomous driving tasks. However, their applications and evaluations in autonomous driving remain limited to simulation-based or laboratory settings. The full strength of diffusion models for large-scale, complex real-world settings, such as End-to-End Autonomous Driving (E2E AD), remains underexplored. In this study, we conducted a systematic and large-scale investigation to unleash the potential of the diffusion models as planners for E2E AD, based on a tremendous amount of real-vehicle data and road testing. Through comprehensive and carefully controlled studies, we identify key insights into the diffusion loss space, trajectory representation, and data scaling that significantly impact E2E planning performance. Moreover, we also provide an effective reinforcement learning post-training strategy to further enhance the safety of the learned planner. The resulting diffusion-based learning framework, Hyper Diffusion Planner} (HDP), is deployed on a real-vehicle platform and evaluated across 6 urban driving scenarios and 200 km of real-world testing, achieving a notable 10x performance improvement over the base model. Our work demonstrates that diffusion models, when properly designed and trained, can serve as effective and scalable E2E AD planners for complex, real-world autonomous driving tasks.
- Abstract(参考訳): 拡散モデルはロボット工学における意思決定タスクの一般的な選択肢となり、最近では自律走行タスクの解決も検討されている。
しかしながら、自動運転におけるそれらの応用と評価は、シミュレーションベースまたは実験室の設定に限られている。
E2E AD(End-to-End Autonomous Driving)のような大規模で複雑な現実世界設定のための拡散モデルの完全な強さは、まだ未定である。
本研究では,E2E ADのプランナとしての拡散モデルの可能性について,大量の実車データと道路試験に基づいて,系統的かつ大規模に検討した。
包括的かつ慎重に制御された研究を通して、E2E計画性能に大きな影響を及ぼす拡散損失空間、軌道表現、データスケーリングに関する重要な知見を同定する。
また,学習プランナーの安全性をさらに高めるために,効果的な強化学習後学習戦略も提供する。
結果として得られる拡散ベースの学習フレームワークであるHyper Diffusion Planner (HDP)は、実際の車両プラットフォームにデプロイされ、6つの都市運転シナリオと200kmの実際のテストで評価され、ベースモデルよりも優れた10倍のパフォーマンス向上を実現している。
我々の研究は、拡散モデルが適切に設計され、訓練されると、複雑な現実の自律運転タスクに対して効果的でスケーラブルなE2E ADプランナーとして機能することを示した。
関連論文リスト
- ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving [10.984203470464687]
視覚言語モデル(VLM)は、空間認識の不十分さや幻覚といった限界に悩まされることが多い。
本稿では,自律走行シーンにおけるメタアクションを確実に生成するVLMの能力を高めるための,検索強化意思決定(RAD)フレームワークを提案する。
我々は,NuScenesデータセットから得られたデータセットに基づいてVLMを微調整し,その空間的知覚と鳥眼視画像理解能力を高める。
論文 参考訳(メタデータ) (2025-03-18T03:25:57Z) - A Survey of World Models for Autonomous Driving [55.520179689933904]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
今後の研究は、自己指導型表現学習、マルチモーダル融合、高度なシミュレーションにおける重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-01-16T01:57:24Z) - Model-based versus Model-free Deep Reinforcement Learning for Autonomous
Racing Cars [46.64253693115981]
本稿では,モデルに基づく深層強化学習エージェントが現実世界の自律車両制御タスクに一般化する方法について検討する。
本稿では,想像力で学習可能なモデルベースエージェント,パフォーマンス,サンプル効率,タスク完了,一般化に関して,モデルフリーエージェントを実質的に上回っていることを示す。
論文 参考訳(メタデータ) (2021-03-08T17:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。