論文の概要: EvaDrive: Evolutionary Adversarial Policy Optimization for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2508.09158v2
- Date: Thu, 14 Aug 2025 07:22:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:23.653077
- Title: EvaDrive: Evolutionary Adversarial Policy Optimization for End-to-End Autonomous Driving
- Title(参考訳): EvaDrive: エンド・ツー・エンドの自動運転のための進化的敵対的ポリシー最適化
- Authors: Siwen Jiao, Kangan Qian, Hao Ye, Yang Zhong, Ziang Luo, Sicong Jiang, Zilin Huang, Yangyi Fang, Jinyu Miao, Zheng Fu, Yunlong Wang, Kun Jiang, Diange Yang, Rui Fan, Baoyun Peng,
- Abstract要約: EvaDriveは、自動運転のための新しい強化学習フレームワークである。
ヒューマンライクな反復的意思決定のためのクローズドループ対向フレームワークを提供する。
NAVSIMとBench2Driveベンチマークの大規模な実験では、SOTAのパフォーマンスが示されている。
- 参考スコア(独自算出の注目度): 17.57364638932072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving faces significant challenges in achieving human-like iterative decision-making, which continuously generates, evaluates, and refines trajectory proposals. Current generation-evaluation frameworks isolate trajectory generation from quality assessment, preventing iterative refinement essential for planning, while reinforcement learning methods collapse multi-dimensional preferences into scalar rewards, obscuring critical trade-offs and yielding scalarization bias.To overcome these issues, we present EvaDrive, a novel multi-objective reinforcement learning framework that establishes genuine closed-loop co-evolution between trajectory generation and evaluation via adversarial optimization. EvaDrive frames trajectory planning as a multi-round adversarial game. In this game, a hierarchical generator continuously proposes candidate paths by combining autoregressive intent modeling for temporal causality with diffusion-based refinement for spatial flexibility. These proposals are then rigorously assessed by a trainable multi-objective critic that explicitly preserves diverse preference structures without collapsing them into a single scalarization bias.This adversarial interplay, guided by a Pareto frontier selection mechanism, enables iterative multi-round refinement, effectively escaping local optima while preserving trajectory diversity.Extensive experiments on NAVSIM and Bench2Drive benchmarks demonstrate SOTA performance, achieving 94.9 PDMS on NAVSIM v1 (surpassing DiffusionDrive by 6.8, DriveSuprim by 5.0, and TrajHF by 0.9) and 64.96 Driving Score on Bench2Drive. EvaDrive generates diverse driving styles via dynamic weighting without external preference data, introducing a closed-loop adversarial framework for human-like iterative decision-making, offering a novel scalarization-free trajectory optimization approach.
- Abstract(参考訳): 自律運転は人間のような反復的意思決定を達成する上で大きな課題に直面しており、それは軌道の提案を継続的に生成し、評価し、洗練する。
現在の世代評価フレームワークは,トラジェクティブ生成を品質評価から分離し,計画に不可欠な反復的改善を阻害する一方で,強化学習手法は多次元の選好をスカラー報酬に分解し,重要なトレードオフを排除し,スカラー化バイアスを生じさせる。
EvaDriveは多ラウンドの対戦ゲームとして軌道計画を行う。
このゲームでは、時間的因果関係の自己回帰的意図モデリングと空間的柔軟性の拡散に基づく洗練を組み合わせることで、階層的ジェネレータが候補経路を連続的に提案する。
これらの提案は、トレーニング可能な多目的評論家によって厳格に評価され、単一のスカラー化バイアスに分解することなく、多様な嗜好構造を明示的に保存する。この敵対的対話は、パレートフロンティア選択機構によってガイドされ、反復的な多ラウンド改善を可能にし、軌道の多様性を保ちながらローカルオプティマを効果的にエスケープする。NAVSIMとBench2Driveベンチマークの大規模な実験は、SOTAのパフォーマンスを示し、NAVSIM v1上で94.9 PDMS(DiffusionDriveを6.8で、DriveSuprimを5.0で、TrajHFを0.9で、64.96 Driving ScoreをBenchDriveで実現している。
EvaDriveは、外部の嗜好データなしで動的重み付けにより多様な運転スタイルを生成し、人間のような反復的意思決定のためのクローズドループ対向フレームワークを導入し、新しいスキャラライズフリーな軌道最適化アプローチを提供する。
関連論文リスト
- DriveSuprim: Towards Precise Trajectory Selection for End-to-End Planning [43.284391163049236]
DriveSuprimは、自動運転車の軌道選択のための選択に基づくパラダイムである。
衝突回避や規則の遵守など、最先端のパフォーマンスを実現する。
様々な運転シナリオにおいて高い軌道品質を維持する。
論文 参考訳(メタデータ) (2025-06-07T04:39:06Z) - HMAD: Advancing E2E Driving with Anchored Offset Proposals and Simulation-Supervised Multi-target Scoring [7.564094719956086]
HMADは,Bird's-Eye-View (BEV) をベースとした軌道提案機構を学習用マルチ基準スコアリングと統合したフレームワークである。
重要なイノベーションであるシミュレーション制御スコアリングモジュールは、これらの提案を、オンフォールト衝突、ドライビング可能なエリアコンプライアンス、快適性、全体的な運転品質などを含む重要な指標に対して評価する。
HMADはその有効性を実証し、CVPR 2025プライベートテストセットで44.5%の運転スコアを達成した。
論文 参考訳(メタデータ) (2025-05-29T05:59:24Z) - Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。
我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。
本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-21T16:49:38Z) - Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback [33.09982089166203]
生成軌道モデルのための人間のフィードバック駆動微調整フレームワークであるTrajHFを紹介する。
TrajHFは、従来の模倣学習を超えたマルチモーダル軌道生成を洗練する。
NavSimベンチマークで93.95のPDMSを達成し、他の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2025-03-13T14:56:17Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Integrating Higher-Order Dynamics and Roadway-Compliance into
Constrained ILQR-based Trajectory Planning for Autonomous Vehicles [3.200238632208686]
軌道計画は、自動運転車のグローバルな最適ルートを作成することを目的としている。
既存の自転車キネマティックモデルを用いた実装では、制御可能な軌道は保証できない。
このモデルを、曲率と長手ジャークの1階および2階微分を含む高階項で拡張する。
論文 参考訳(メタデータ) (2023-09-25T22:30:18Z) - Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction [71.97877759413272]
軌道予測は、自動運転車が行動を計画し実行するための安全クリティカルなツールです。
近年の手法は,WTAやベスト・オブ・マニーといったマルチコース学習の目標を用いて,強力なパフォーマンスを実現している。
我々の研究は、軌道予測、学習出力、そして運転知識を使って制約を課すことによるより良い予測における2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2021-04-16T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。