論文の概要: HAD: Combining Hierarchical Diffusion with Metric-Decoupled RL for End-to-End Driving
- arxiv url: http://arxiv.org/abs/2604.03581v1
- Date: Sat, 04 Apr 2026 04:12:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.651865
- Title: HAD: Combining Hierarchical Diffusion with Metric-Decoupled RL for End-to-End Driving
- Title(参考訳): HAD: 終端運転における階層的拡散とメトリックデカップリングRLの併用
- Authors: Wenhao Yao, Xinglong Sun, Zhenxin Li, Shiyi Lan, Zi Wang, Jose M. Alvarez, Zuxuan Wu,
- Abstract要約: 我々は階層的拡散政策を備えたエンドツーエンドの計画フレームワークであるHADを提案する。
我々は,NAVSIMとHUGSIMの両方でHADが新たな最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 51.268878540511054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end planning has emerged as a dominant paradigm for autonomous driving, where recent models often adopt a scoring-selection framework to choose trajectories from a large set of candidates, with diffusion-based decoding showing strong promise. However, directly selecting from the entire candidate space remains difficult to optimize, and Gaussian perturbations used in diffusion often introduce unrealistic trajectories that complicate the denoising process. In addition, for training these models, reinforcement learning (RL) has shown promise, but existing end-to-end RL approaches typically rely on a single coupled reward without structured signals, limiting optimization effectiveness. To address these challenges, we propose HAD, an end-to-end planning framework with a Hierarchical Diffusion Policy that decomposes planning into a coarse-to-fine process. To improve trajectory generation, we introduce Structure-Preserved Trajectory Expansion, which produces realistic candidates while maintaining kinematic structure. For policy learning, we develop Metric-Decoupled Policy Optimization (MDPO) to enable structured RL optimization across multiple driving objectives. Extensive experiments show that HAD achieves new state-of-the-art performance on both NAVSIM and HUGSIM, outperforming prior arts by a huge margin: +2.3 EPDMS on NAVSIM and +4.9 Route Completion on HUGSIM.
- Abstract(参考訳): エンド・ツー・エンドの計画が自動運転の主要なパラダイムとして現れており、近年のモデルでは、多くの候補から軌道を選択するためのスコア選択フレームワークが採用されている。
しかし、候補空間全体から直接選択することは最適化が困難であり、拡散に使用されるガウス摂動は、しばしば非現実的な軌道を導入し、デノナイジング過程を複雑にする。
さらに、これらのモデルのトレーニングには強化学習(RL)が期待されているが、既存のエンドツーエンドのRLアプローチは、通常、構造化信号なしで単一の結合報酬に依存し、最適化の有効性を制限している。
これらの課題に対処するため、我々は階層的拡散政策を備えたエンドツーエンドの計画フレームワークであるHADを提案し、計画を粗大なプロセスに分解する。
軌道生成を改善するために,構造保存トラジェクトリ拡張を導入し,運動構造を維持しながら現実的な候補を生成する。
政策学習において,複数の駆動目標に対して構造化されたRL最適化を実現するために,MDPO(Metric-Decoupled Policy Optimization)を開発した。
大規模な実験により、HADはNAVSIMとHUGSIMの両方で新しい最先端のパフォーマンスを達成し、NAVSIMでは+2.3 EPDMS、HUGSIMでは+4.9 Route Completionという大差で先行技術を上回った。
関連論文リスト
- Fine-tuning is Not Enough: A Parallel Framework for Collaborative Imitation and Reinforcement Learning in End-to-end Autonomous Driving [7.691237575352413]
PaIR-Driveは、エンドツーエンドの自動運転における協調および強化学習のための一般的なフレームワークである。
トレーニング中、PaIR-DriveはILとRLを2つの並列ブランチに分離する。
PaIR-Driveは既存のRLファインチューニング法を一貫して上回り、人間の専門家の準最適動作を補正する可能性さえある。
論文 参考訳(メタデータ) (2026-03-14T08:53:47Z) - Drive As You Like: Strategy-Level Motion Planning Based on A Multi-Head Diffusion Model [7.3078271605135114]
拡散型多頭部軌道プランナ(M拡散プランナ)を提案する。
初期の訓練段階では、すべての出力ヘッドは、高品質な軌道を生成するためにウェイトを共有する。
戦略選択のガイドとして,大規模言語モデル(LLM)を導入し,動的かつ命令対応の計画を可能にする。
論文 参考訳(メタデータ) (2025-08-23T08:33:11Z) - Generalized Trajectory Scoring for End-to-end Multimodal Planning [42.38746285135693]
Generalized Trajectory Scoring (GTRS)は、エンドツーエンドのマルチモーダル計画のための統合フレームワークである。
GTRSは,(1)多種多様な微細な提案を生成する拡散型軌跡生成装置,(2)高密度軌跡集合のスコアラをドロップアウト正規化で訓練する語彙一般化技術,(3)ドメイン外一般化を強化するセンサ増強戦略の3つの相補的なイノベーションで構成されている。
ナブシムv2チャレンジの勝利解として、GTRSは準最適センサ入力においても優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-07T05:06:05Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Predictive Planner for Autonomous Driving with Consistency Models [5.966385886363771]
軌道予測と計画は、自動運転車が動的環境下で安全かつ効率的に走行するために不可欠である。
近年の拡散型生成モデルはマルチエージェント軌道生成において有望であるが,その遅いサンプリングは高周波計画タスクには適さない。
我々は,エゴ車両の航法目標に基づいて,エゴと周辺エージェントの共同分布からサンプルを採取する予測プランナを構築するために,一貫性モデルを活用する。
論文 参考訳(メタデータ) (2025-02-12T00:26:01Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Reinforcement Learning to Optimize the Logistics Distribution Routes of
Unmanned Aerial Vehicle [0.0]
本稿では,複数のノフライゾーンを含む複雑な環境下でUAVの経路計画を実現するための改良手法を提案する。
その結果,このような複雑な状況に適応するモデルの有効性と効率性が示された。
論文 参考訳(メタデータ) (2020-04-21T09:42:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。