論文の概要: Safe Reinforcement Learning for Autonomous Vehicles through Parallel
Constrained Policy Optimization
- arxiv url: http://arxiv.org/abs/2003.01303v1
- Date: Tue, 3 Mar 2020 02:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 21:41:08.900293
- Title: Safe Reinforcement Learning for Autonomous Vehicles through Parallel
Constrained Policy Optimization
- Title(参考訳): 並列制約政策最適化による自動車の安全強化学習
- Authors: Lu Wen, Jingliang Duan, Shengbo Eben Li, Shaobing Xu, Huei Peng
- Abstract要約: 本稿では,2つの自律運転タスクに対して,Parallel Constrained Policy Optimization (PCPO)と呼ばれる安全強化学習アルゴリズムを提案する。
PCPOは、今日のアクター批判アーキテクチャを3成分学習フレームワークに拡張し、3つのニューラルネットワークを使用してポリシー関数、値関数、新たに追加されたリスク関数を近似する。
安全制約問題の実現性を確保するため、並列学習者は異なる状態空間を探索し、学習とポリシー更新を加速する。
- 参考スコア(独自算出の注目度): 20.913475536020247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) is attracting increasing interests in autonomous
driving due to its potential to solve complex classification and control
problems. However, existing RL algorithms are rarely applied to real vehicles
for two predominant problems: behaviours are unexplainable, and they cannot
guarantee safety under new scenarios. This paper presents a safe RL algorithm,
called Parallel Constrained Policy Optimization (PCPO), for two autonomous
driving tasks. PCPO extends today's common actor-critic architecture to a
three-component learning framework, in which three neural networks are used to
approximate the policy function, value function and a newly added risk
function, respectively. Meanwhile, a trust region constraint is added to allow
large update steps without breaking the monotonic improvement condition. To
ensure the feasibility of safety constrained problems, synchronized parallel
learners are employed to explore different state spaces, which accelerates
learning and policy-update. The simulations of two scenarios for autonomous
vehicles confirm we can ensure safety while achieving fast learning.
- Abstract(参考訳): 強化学習(rl)は、複雑な分類や制御問題を解決する可能性から、自動運転への関心が高まっている。
しかし、既存のrlアルゴリズムは2つの主要な問題に対して実車に適用されることは滅多にない: 振る舞いは説明不能であり、新しいシナリオでは安全性を保証できない。
本稿では,2つの自律運転タスクに対して,Parallel Constrained Policy Optimization (PCPO)と呼ばれる安全なRLアルゴリズムを提案する。
PCPOは、今日のアクター批判アーキテクチャを3成分学習フレームワークに拡張し、3つのニューラルネットワークを使用してそれぞれポリシー関数、値関数、新たに追加されたリスク関数を近似する。
一方、単調改善条件を破ることなく大きな更新ステップを可能にするために、信頼領域制約を追加する。
安全制約問題の実現性を確保するため、並列学習者は異なる状態空間を探索し、学習とポリシー更新を加速する。
自動運転車の2つのシナリオのシミュレーションでは、高速な学習をしながら安全性を確保することができる。
関連論文リスト
- RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Controllable Adversaries [94.84458417662407]
本稿では,新しい拡散制御型クローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
我々は,認知過程における敵対的項を通して,安全クリティカルなシナリオをシミュレートする新しい手法を開発した。
我々はNuScenesデータセットを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Evaluation of Safety Constraints in Autonomous Navigation with Deep
Reinforcement Learning [62.997667081978825]
学習可能なナビゲーションポリシとして,セーフとアンセーフの2つを比較します。
安全なポリシは、制約をアカウントに含めますが、もう一方はそうではありません。
安全政策は、よりクリアランスの高い軌道を生成することができ(障害物によらず)、全体的な性能を犠牲にすることなく、トレーニング中に衝突を減らすことができることを示す。
論文 参考訳(メタデータ) (2023-07-27T01:04:57Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Model-Based Safe Reinforcement Learning with Time-Varying State and
Control Constraints: An Application to Intelligent Vehicles [13.40143623056186]
本稿では、時間変化状態と制御制約を持つ非線形システムの最適制御のための安全なRLアルゴリズムを提案する。
多段階の政策評価機構が提案され、時間変化による安全制約の下での政策の安全性リスクを予測し、安全更新を誘導する。
提案アルゴリズムは、シミュレーションされたセーフティガイム環境において、最先端のRLアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2021-12-18T10:45:31Z) - Minimizing Safety Interference for Safe and Comfortable Automated
Driving with Distributional Reinforcement Learning [3.923354711049903]
そこで本稿では,望ましい快適さと実用性に基づいて,実行時の保守性レベルを調整可能な適応ポリシーを学習するための分散強化学習フレームワークを提案する。
提案アルゴリズムは,認識ノイズが2倍高い場合にも信頼性を向上できるポリシを学習し,非閉塞交差点における自動マージと踏切の訓練構成を示す。
論文 参考訳(メタデータ) (2021-07-15T13:36:55Z) - Model-based Safe Reinforcement Learning using Generalized Control
Barrier Function [6.556257209888797]
本稿では,制約付きRLのモデルに基づく実現性向上手法を提案する。
モデル情報を使用することで、実際の安全制約に違反することなく、ポリシーを安全に最適化することができる。
提案手法は最大4倍の制約違反を達成し、ベースライン制約RLアプローチよりも3.36倍の速度で収束する。
論文 参考訳(メタデータ) (2021-03-02T08:17:38Z) - Reinforcement Learning based Control of Imitative Policies for
Near-Accident Driving [41.54021613421446]
事故に近いシナリオでは、車両の動作の微妙な変化でさえ、劇的に異なる結果をもたらす可能性がある。
本稿では、ILが個別駆動モードで学んだ低レベルポリシーと、異なる駆動モード間で切り替えるRLで学んだ高レベルポリシーからなる階層的強化と模倣学習(H-ReIL)アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-01T01:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。