論文の概要: DriveDPO: Policy Learning via Safety DPO For End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2509.17940v1
- Date: Mon, 22 Sep 2025 16:01:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.481189
- Title: DriveDPO: Policy Learning via Safety DPO For End-to-End Autonomous Driving
- Title(参考訳): DriveDPO: エンド・ツー・エンドの自動運転のための安全DPOによるポリシー学習
- Authors: Shuyao Shang, Yuntao Chen, Yuqi Wang, Yingyan Li, Zhaoxiang Zhang,
- Abstract要約: DriveDPOは、安全指向最適化政策学習フレームワークである。
我々は、直接政策最適化のために、人間の模倣類似性とルールに基づく安全スコアから統一されたポリシー分布を蒸留する。
NAVSIMベンチマークの実験では、DriveDPOは90.0の最先端PDMSを達成した。
- 参考スコア(独自算出の注目度): 31.336758241051374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end autonomous driving has substantially progressed by directly predicting future trajectories from raw perception inputs, which bypasses traditional modular pipelines. However, mainstream methods trained via imitation learning suffer from critical safety limitations, as they fail to distinguish between trajectories that appear human-like but are potentially unsafe. Some recent approaches attempt to address this by regressing multiple rule-driven scores but decoupling supervision from policy optimization, resulting in suboptimal performance. To tackle these challenges, we propose DriveDPO, a Safety Direct Preference Optimization Policy Learning framework. First, we distill a unified policy distribution from human imitation similarity and rule-based safety scores for direct policy optimization. Further, we introduce an iterative Direct Preference Optimization stage formulated as trajectory-level preference alignment. Extensive experiments on the NAVSIM benchmark demonstrate that DriveDPO achieves a new state-of-the-art PDMS of 90.0. Furthermore, qualitative results across diverse challenging scenarios highlight DriveDPO's ability to produce safer and more reliable driving behaviors.
- Abstract(参考訳): エンド・ツー・エンドの自動運転は、従来のモジュールパイプラインをバイパスする生の知覚入力から将来の軌道を直接予測することで、大幅に進歩した。
しかし、模倣学習によって訓練された主流の方法は、人間のように見えるが危険である可能性のある軌跡を区別できないため、重大な安全性の限界に悩まされる。
いくつかの最近のアプローチでは、複数のルール駆動スコアを抑えることでこの問題に対処するが、政策最適化から監督を分離し、結果として準最適性能をもたらす。
これらの課題に対処するために,安全指向最適化政策学習フレームワークDriveDPOを提案する。
まず、直接ポリシー最適化のために、人間の模倣類似性とルールに基づく安全スコアから統一されたポリシー分布を蒸留する。
さらに、トラジェクトリレベルの優先アライメントとして定式化された反復的直接選好最適化ステージを導入する。
NAVSIMベンチマークの大規模な実験は、DriveDPOが新しい最先端PDMSを90.0で達成していることを示している。
さらに、様々な困難なシナリオにわたる質的な結果は、DriveDPOがより安全で信頼性の高い運転行動を生成する能力を強調している。
関連論文リスト
- EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。
提案手法は, 従来手法に比べて試料効率を最大2~3倍向上させる。
論文 参考訳(メタデータ) (2025-07-10T17:57:46Z) - DriveSuprim: Towards Precise Trajectory Selection for End-to-End Planning [43.284391163049236]
DriveSuprimは、自動運転車の軌道選択のための選択に基づくパラダイムである。
衝突回避や規則の遵守など、最先端のパフォーマンスを実現する。
様々な運転シナリオにおいて高い軌道品質を維持する。
論文 参考訳(メタデータ) (2025-06-07T04:39:06Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Enhanced Safety in Autonomous Driving: Integrating Latent State Diffusion Model for End-to-End Navigation [5.928213664340974]
本研究は自動運転の制御最適化問題における安全性問題に対処する。
本稿では,条件付きバリュー・アット・リスクに基づくソフトアクター批判を利用して,ポリシー最適化のための新しいモデルベースアプローチを提案する。
本手法では, 安全探索を誘導する最悪のアクターを導入し, 予測不可能なシナリオにおいても, 安全要件の厳密な遵守を確保する。
論文 参考訳(メタデータ) (2024-07-08T18:32:40Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。