論文の概要: Distributional Soft Actor-Critic with Harmonic Gradient for Safe and Efficient Autonomous Driving in Multi-lane Scenarios
- arxiv url: http://arxiv.org/abs/2505.13532v1
- Date: Sun, 18 May 2025 11:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.374108
- Title: Distributional Soft Actor-Critic with Harmonic Gradient for Safe and Efficient Autonomous Driving in Multi-lane Scenarios
- Title(参考訳): 多車線シナリオにおける安全かつ効率的な自律運転のための高調波勾配を用いた分布型ソフトアクター臨界
- Authors: Feihong Zhang, Guojian Zhan, Bin Shuai, Tianyi Zhang, Jingliang Duan, Shengbo Eben Li,
- Abstract要約: ハーモニック・ポリシー・イテレーション(HPI)と呼ばれる新しい安全指向トレーニング手法を提案する。
各RLイテレーションでは、それぞれに効率的な運転と安全性の制約に関連する2つのポリシー勾配を計算する。
調和勾配は、2つの勾配間の衝突を最小限に抑え、ポリシー更新のために導かれる。
我々は最先端のDSACアルゴリズムをバックボーンとして採用し、HPIと統合して新しい安全なRLアルゴリズムDSAC-Hを開発した。
- 参考スコア(独自算出の注目度): 16.23857092084669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL), known for its self-evolution capability, offers a promising approach to training high-level autonomous driving systems. However, handling constraints remains a significant challenge for existing RL algorithms, particularly in real-world applications. In this paper, we propose a new safety-oriented training technique called harmonic policy iteration (HPI). At each RL iteration, it first calculates two policy gradients associated with efficient driving and safety constraints, respectively. Then, a harmonic gradient is derived for policy updating, minimizing conflicts between the two gradients and consequently enabling a more balanced and stable training process. Furthermore, we adopt the state-of-the-art DSAC algorithm as the backbone and integrate it with our HPI to develop a new safe RL algorithm, DSAC-H. Extensive simulations in multi-lane scenarios demonstrate that DSAC-H achieves efficient driving performance with near-zero safety constraint violations.
- Abstract(参考訳): 自己進化能力で知られる強化学習(RL)は、ハイレベル自律運転システムのトレーニングに有望なアプローチを提供する。
しかし、制約を扱うことは、既存のRLアルゴリズム、特に現実世界のアプリケーションにとって重要な課題である。
本稿では,調和ポリシー反復(HPI)と呼ばれる新しい安全指向のトレーニング手法を提案する。
各RLイテレーションでは、それぞれに効率的な運転と安全性の制約に関連する2つのポリシー勾配を計算する。
そして、ポリシー更新のために調和勾配を導出し、2つの勾配間の衝突を最小限にし、よりバランスよく安定したトレーニングプロセスを可能にする。
さらに、最先端のDSACアルゴリズムをバックボーンとして採用し、HPIと統合して新しい安全なRLアルゴリズムDSAC-Hを開発した。
DSAC-Hがほぼゼロの安全制約違反で効率的な運転性能を達成することを示す。
関連論文リスト
- CIMRL: Combining IMitation and Reinforcement Learning for Safe Autonomous Driving [45.05135725542318]
CIMRL(imitation and Reinforcement Learning)アプローチは、模倣動作の先行と安全性の制約を活用することで、シミュレーションにおける運転ポリシーのトレーニングを可能にする。
RLと模倣を組み合わせることで, クローズドループシミュレーションと実世界の運転ベンチマークにおいて, 最先端の結果が得られたことを実証する。
論文 参考訳(メタデータ) (2024-06-13T07:31:29Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Long and Short-Term Constraints Driven Safe Reinforcement Learning for Autonomous Driving [11.072917563013428]
強化学習 (Reinforcement Learning, RL) は意思決定や制御作業に広く用いられているが, 訓練プロセスにおけるエージェントのリスクは非常に高い。
本稿では,安全RLのための長短制約(LSTC)に基づく新しいアルゴリズムを提案する。
提案手法は, 連続状態および動作タスクにおいて高い安全性を達成し, 長距離意思決定タスクにおいて高い探索性能を示す。
論文 参考訳(メタデータ) (2024-03-27T02:41:52Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Reinforcement Learning for Autonomous Vehicles through Parallel
Constrained Policy Optimization [20.913475536020247]
本稿では,2つの自律運転タスクに対して,Parallel Constrained Policy Optimization (PCPO)と呼ばれる安全強化学習アルゴリズムを提案する。
PCPOは、今日のアクター批判アーキテクチャを3成分学習フレームワークに拡張し、3つのニューラルネットワークを使用してポリシー関数、値関数、新たに追加されたリスク関数を近似する。
安全制約問題の実現性を確保するため、並列学習者は異なる状態空間を探索し、学習とポリシー更新を加速する。
論文 参考訳(メタデータ) (2020-03-03T02:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。