論文の概要: EvaDrive: Evolutionary Adversarial Policy Optimization for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2508.09158v2
- Date: Thu, 14 Aug 2025 07:22:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:23.653077
- Title: EvaDrive: Evolutionary Adversarial Policy Optimization for End-to-End Autonomous Driving
- Title(参考訳): EvaDrive: エンド・ツー・エンドの自動運転のための進化的敵対的ポリシー最適化
- Authors: Siwen Jiao, Kangan Qian, Hao Ye, Yang Zhong, Ziang Luo, Sicong Jiang, Zilin Huang, Yangyi Fang, Jinyu Miao, Zheng Fu, Yunlong Wang, Kun Jiang, Diange Yang, Rui Fan, Baoyun Peng,
- Abstract要約: EvaDriveは、自動運転のための新しい強化学習フレームワークである。
ヒューマンライクな反復的意思決定のためのクローズドループ対向フレームワークを提供する。
NAVSIMとBench2Driveベンチマークの大規模な実験では、SOTAのパフォーマンスが示されている。
- 参考スコア(独自算出の注目度): 17.57364638932072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving faces significant challenges in achieving human-like iterative decision-making, which continuously generates, evaluates, and refines trajectory proposals. Current generation-evaluation frameworks isolate trajectory generation from quality assessment, preventing iterative refinement essential for planning, while reinforcement learning methods collapse multi-dimensional preferences into scalar rewards, obscuring critical trade-offs and yielding scalarization bias.To overcome these issues, we present EvaDrive, a novel multi-objective reinforcement learning framework that establishes genuine closed-loop co-evolution between trajectory generation and evaluation via adversarial optimization. EvaDrive frames trajectory planning as a multi-round adversarial game. In this game, a hierarchical generator continuously proposes candidate paths by combining autoregressive intent modeling for temporal causality with diffusion-based refinement for spatial flexibility. These proposals are then rigorously assessed by a trainable multi-objective critic that explicitly preserves diverse preference structures without collapsing them into a single scalarization bias.This adversarial interplay, guided by a Pareto frontier selection mechanism, enables iterative multi-round refinement, effectively escaping local optima while preserving trajectory diversity.Extensive experiments on NAVSIM and Bench2Drive benchmarks demonstrate SOTA performance, achieving 94.9 PDMS on NAVSIM v1 (surpassing DiffusionDrive by 6.8, DriveSuprim by 5.0, and TrajHF by 0.9) and 64.96 Driving Score on Bench2Drive. EvaDrive generates diverse driving styles via dynamic weighting without external preference data, introducing a closed-loop adversarial framework for human-like iterative decision-making, offering a novel scalarization-free trajectory optimization approach.
- Abstract(参考訳): 自律運転は人間のような反復的意思決定を達成する上で大きな課題に直面しており、それは軌道の提案を継続的に生成し、評価し、洗練する。
現在の世代評価フレームワークは,トラジェクティブ生成を品質評価から分離し,計画に不可欠な反復的改善を阻害する一方で,強化学習手法は多次元の選好をスカラー報酬に分解し,重要なトレードオフを排除し,スカラー化バイアスを生じさせる。
EvaDriveは多ラウンドの対戦ゲームとして軌道計画を行う。
このゲームでは、時間的因果関係の自己回帰的意図モデリングと空間的柔軟性の拡散に基づく洗練を組み合わせることで、階層的ジェネレータが候補経路を連続的に提案する。
これらの提案は、トレーニング可能な多目的評論家によって厳格に評価され、単一のスカラー化バイアスに分解することなく、多様な嗜好構造を明示的に保存する。この敵対的対話は、パレートフロンティア選択機構によってガイドされ、反復的な多ラウンド改善を可能にし、軌道の多様性を保ちながらローカルオプティマを効果的にエスケープする。NAVSIMとBench2Driveベンチマークの大規模な実験は、SOTAのパフォーマンスを示し、NAVSIM v1上で94.9 PDMS(DiffusionDriveを6.8で、DriveSuprimを5.0で、TrajHFを0.9で、64.96 Driving ScoreをBenchDriveで実現している。
EvaDriveは、外部の嗜好データなしで動的重み付けにより多様な運転スタイルを生成し、人間のような反復的意思決定のためのクローズドループ対向フレームワークを導入し、新しいスキャラライズフリーな軌道最適化アプローチを提供する。
関連論文リスト
- DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving [65.7087560656003]
エンドツーエンドの自動運転のための生成拡散モデルは、しばしばモード崩壊に悩まされる。
強化学習を利用して低品質モードを制約し,優れた軌道探索を行うDiffusionDriveV2を提案する。
これにより、そのコアであるガウス混合モデル固有の多重モード性を維持しながら、全体的な出力品質が大幅に向上する。
論文 参考訳(メタデータ) (2025-12-08T17:29:52Z) - Optimization-Guided Diffusion for Interactive Scene Generation [52.23368750264419]
本稿では,拡散型サンプリングにおける構造的一貫性と相互作用認識を実現するための,最適化誘導型トレーニングフリーフレームワークであるOMEGAを提案する。
OMEGAは生成リアリズム,一貫性,可制御性を向上し,身体的および行動学的に有効なシーンの比率を増大させることを示す。
当社のアプローチでは,3秒未満の時間対コリションで,より近いコリジョンフレームを5ドル(約5,500円)で生成することも可能だ。
論文 参考訳(メタデータ) (2025-12-08T15:56:18Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - Steerable Adversarial Scenario Generation through Test-Time Preference Alignment [58.37104890690234]
対立シナリオ生成は、自律運転システムの安全性評価のためのコスト効率の良いアプローチである。
textbfSteerable textbfAdversarial scenario textbfGEnerator (SAGE) という新しいフレームワークを導入する。
SAGEは、逆境とリアリズムの間のトレードオフを、再トレーニングなしできめ細かいテストタイムコントロールを可能にします。
論文 参考訳(メタデータ) (2025-09-24T13:27:35Z) - DriveSuprim: Towards Precise Trajectory Selection for End-to-End Planning [43.284391163049236]
DriveSuprimは、自動運転車の軌道選択のための選択に基づくパラダイムである。
衝突回避や規則の遵守など、最先端のパフォーマンスを実現する。
様々な運転シナリオにおいて高い軌道品質を維持する。
論文 参考訳(メタデータ) (2025-06-07T04:39:06Z) - HMAD: Advancing E2E Driving with Anchored Offset Proposals and Simulation-Supervised Multi-target Scoring [7.564094719956086]
HMADは,Bird's-Eye-View (BEV) をベースとした軌道提案機構を学習用マルチ基準スコアリングと統合したフレームワークである。
重要なイノベーションであるシミュレーション制御スコアリングモジュールは、これらの提案を、オンフォールト衝突、ドライビング可能なエリアコンプライアンス、快適性、全体的な運転品質などを含む重要な指標に対して評価する。
HMADはその有効性を実証し、CVPR 2025プライベートテストセットで44.5%の運転スコアを達成した。
論文 参考訳(メタデータ) (2025-05-29T05:59:24Z) - Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。
我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。
本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-21T16:49:38Z) - Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback [33.09982089166203]
生成軌道モデルのための人間のフィードバック駆動微調整フレームワークであるTrajHFを紹介する。
TrajHFは、従来の模倣学習を超えたマルチモーダル軌道生成を洗練する。
NavSimベンチマークで93.95のPDMSを達成し、他の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2025-03-13T14:56:17Z) - Predictive Planner for Autonomous Driving with Consistency Models [5.966385886363771]
軌道予測と計画は、自動運転車が動的環境下で安全かつ効率的に走行するために不可欠である。
近年の拡散型生成モデルはマルチエージェント軌道生成において有望であるが,その遅いサンプリングは高周波計画タスクには適さない。
我々は,エゴ車両の航法目標に基づいて,エゴと周辺エージェントの共同分布からサンプルを採取する予測プランナを構築するために,一貫性モデルを活用する。
論文 参考訳(メタデータ) (2025-02-12T00:26:01Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Integrating Higher-Order Dynamics and Roadway-Compliance into
Constrained ILQR-based Trajectory Planning for Autonomous Vehicles [3.200238632208686]
軌道計画は、自動運転車のグローバルな最適ルートを作成することを目的としている。
既存の自転車キネマティックモデルを用いた実装では、制御可能な軌道は保証できない。
このモデルを、曲率と長手ジャークの1階および2階微分を含む高階項で拡張する。
論文 参考訳(メタデータ) (2023-09-25T22:30:18Z) - Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction [71.97877759413272]
軌道予測は、自動運転車が行動を計画し実行するための安全クリティカルなツールです。
近年の手法は,WTAやベスト・オブ・マニーといったマルチコース学習の目標を用いて,強力なパフォーマンスを実現している。
我々の研究は、軌道予測、学習出力、そして運転知識を使って制約を課すことによるより良い予測における2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2021-04-16T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。