論文の概要: Long and Short-Term Constraints Driven Safe Reinforcement Learning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2403.18209v2
- Date: Thu, 12 Sep 2024 12:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 22:02:48.141590
- Title: Long and Short-Term Constraints Driven Safe Reinforcement Learning for Autonomous Driving
- Title(参考訳): 自律運転のための長期・短期制約駆動型安全強化学習
- Authors: Xuemin Hu, Pan Chen, Yijun Wen, Bo Tang, Long Chen,
- Abstract要約: 強化学習 (Reinforcement Learning, RL) は意思決定や制御作業に広く用いられているが, 訓練プロセスにおけるエージェントのリスクは非常に高い。
本稿では,安全RLのための長短制約(LSTC)に基づく新しいアルゴリズムを提案する。
提案手法は, 連続状態および動作タスクにおいて高い安全性を達成し, 長距離意思決定タスクにおいて高い探索性能を示す。
- 参考スコア(独自算出の注目度): 11.072917563013428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has been widely used in decision-making and control tasks, but the risk is very high for the agent in the training process due to the requirements of interaction with the environment, which seriously limits its industrial applications such as autonomous driving systems. Safe RL methods are developed to handle this issue by constraining the expected safety violation costs as a training objective, but the occurring probability of an unsafe state is still high, which is unacceptable in autonomous driving tasks. Moreover, these methods are difficult to achieve a balance between the cost and return expectations, which leads to learning performance degradation for the algorithms. In this paper, we propose a novel algorithm based on the long and short-term constraints (LSTC) for safe RL. The short-term constraint aims to enhance the short-term state safety that the vehicle explores, while the long-term constraint enhances the overall safety of the vehicle throughout the decision-making process, both of which are jointly used to enhance the vehicle safety in the training process. In addition, we develop a safe RL method with dual-constraint optimization based on the Lagrange multiplier to optimize the training process for end-to-end autonomous driving. Comprehensive experiments were conducted on the MetaDrive simulator. Experimental results demonstrate that the proposed method achieves higher safety in continuous state and action tasks, and exhibits higher exploration performance in long-distance decision-making tasks compared with state-of-the-art methods.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は意思決定や制御作業に広く用いられているが, 自律運転システムなどの産業応用を著しく制限する環境との相互作用が要求されるため, 訓練プロセスにおけるエージェントのリスクは非常に高い。
安全RL法は、トレーニング目標として期待される安全違反コストを制約することによりこの問題に対処するために開発されたが、安全でない状態の発生確率は依然として高く、自動運転タスクでは受け入れられない。
さらに、これらの手法はコストとリターン期待のバランスをとることが困難であり、アルゴリズムの性能劣化の学習につながる。
本稿では,安全RLのための長短制約(LSTC)に基づく新しいアルゴリズムを提案する。
短期的制約は、車両が探索する短期的安全性を高めることを目的としており、一方、長期的制約は、意思決定プロセスを通して車両全体の安全性を高める。
さらに,ラグランジュ乗算器に基づく二制約最適化を用いた安全なRL法を開発し,エンドツーエンド自動運転のトレーニングプロセスを最適化する。
MetaDriveシミュレータの総合的な実験を行った。
実験の結果,提案手法は連続状態および動作タスクにおいて高い安全性を達成でき,また,長距離意思決定タスクにおいて最先端の手法と比較して高い探索性能を示すことがわかった。
関連論文リスト
- Enhanced Safety in Autonomous Driving: Integrating Latent State Diffusion Model for End-to-End Navigation [5.928213664340974]
本研究は自動運転の制御最適化問題における安全性問題に対処する。
本稿では,条件付きバリュー・アット・リスクに基づくソフトアクター批判を利用して,ポリシー最適化のための新しいモデルベースアプローチを提案する。
本手法では, 安全探索を誘導する最悪のアクターを導入し, 予測不可能なシナリオにおいても, 安全要件の厳密な遵守を確保する。
論文 参考訳(メタデータ) (2024-07-08T18:32:40Z) - CIMRL: Combining IMitation and Reinforcement Learning for Safe Autonomous Driving [45.05135725542318]
CIMRL(imitation and Reinforcement Learning)アプローチは、模倣動作の先行と安全性の制約を活用することで、シミュレーションにおける運転ポリシーのトレーニングを可能にする。
RLと模倣を組み合わせることで, クローズドループシミュレーションと実世界の運転ベンチマークにおいて, 最先端の結果が得られたことを実証する。
論文 参考訳(メタデータ) (2024-06-13T07:31:29Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Evaluation of Safety Constraints in Autonomous Navigation with Deep
Reinforcement Learning [62.997667081978825]
学習可能なナビゲーションポリシとして,セーフとアンセーフの2つを比較します。
安全なポリシは、制約をアカウントに含めますが、もう一方はそうではありません。
安全政策は、よりクリアランスの高い軌道を生成することができ(障害物によらず)、全体的な性能を犠牲にすることなく、トレーニング中に衝突を減らすことができることを示す。
論文 参考訳(メタデータ) (2023-07-27T01:04:57Z) - Towards Safe Autonomous Driving Policies using a Neuro-Symbolic Deep
Reinforcement Learning Approach [6.961253535504979]
本稿では, DRLSL (Dybolic Logics) と呼ばれる新しいニューロシンボリックモデルフリーDRLアプローチを提案する。
DRL(経験から学ぶ)とシンボリックな一階述語論理(知識駆動推論)の強みを組み合わせることで、実環境における自動運転のリアルタイムインタラクションにおける安全な学習を可能にする。
我々は,ハイDデータセットを用いた自律走行にDRLSLフレームワークを実装し,トレーニングとテストの両段階において,安全でない動作を回避できることを実証した。
論文 参考訳(メタデータ) (2023-07-03T19:43:21Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - High-level Decisions from a Safe Maneuver Catalog with Reinforcement
Learning for Safe and Cooperative Automated Merging [5.732271870257913]
統合シナリオにおける安全かつ協調的な自動運転のための効率的なRLに基づく意思決定パイプラインを提案する。
提案するRLエージェントは、車両状態履歴から協調運転者を効率よく識別し、対話的な操作を生成する。
論文 参考訳(メタデータ) (2021-07-15T15:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。