論文の概要: State-wise Safe Reinforcement Learning: A Survey
- arxiv url: http://arxiv.org/abs/2302.03122v1
- Date: Mon, 6 Feb 2023 21:11:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 18:12:47.873587
- Title: State-wise Safe Reinforcement Learning: A Survey
- Title(参考訳): 国家の安全強化学習に関する調査
- Authors: Weiye Zhao, Tairan He, Rui Chen, Tianhao Wei, Changliu Liu
- Abstract要約: ステートワイド制約は、現実世界のアプリケーションにおいて最も一般的な制約の1つです。
本稿では,RLにおける状態制約に対処する既存のアプローチについて概説する。
- 参考スコア(独自算出の注目度): 5.826308050755618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the tremendous success of Reinforcement Learning (RL) algorithms in
simulation environments, applying RL to real-world applications still faces
many challenges. A major concern is safety, in another word, constraint
satisfaction. State-wise constraints are one of the most common constraints in
real-world applications and one of the most challenging constraints in Safe RL.
Enforcing state-wise constraints is necessary and essential to many challenging
tasks such as autonomous driving, robot manipulation. This paper provides a
comprehensive review of existing approaches that address state-wise constraints
in RL. Under the framework of State-wise Constrained Markov Decision Process
(SCMDP), we will discuss the connections, differences, and trade-offs of
existing approaches in terms of (i) safety guarantee and scalability, (ii)
safety and reward performance, and (iii) safety after convergence and during
training. We also summarize limitations of current methods and discuss
potential future directions.
- Abstract(参考訳): シミュレーション環境でRL(Reinforcement Learning)アルゴリズムが驚くほど成功したにもかかわらず、実世界のアプリケーションにRLを適用することは、まだ多くの課題に直面している。
主な懸念事項は安全性、つまり制約満足度である。
状態毎の制約は、現実世界のアプリケーションで最も一般的な制約の1つであり、safe rlで最も難しい制約の1つです。
自律運転やロボット操作など,多くの課題に対して,国家的制約の実施が不可欠である。
本稿では、RLにおける状態制約に対処する既存のアプローチを包括的にレビューする。
SCMDP(State-wise Constrained Markov Decision Process)の枠組みの下で、既存のアプローチの関連、相違、トレードオフについて議論する。
(i)安全性の保証と拡張性。
(ii)安全と報酬の成果、及び
(iii)収束後及び訓練中の安全性。
また,現在の手法の限界を要約し,今後の方向性について考察する。
関連論文リスト
- Multi-Constraint Safe RL with Objective Suppression for Safety-Critical
Applications [80.99495309420959]
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
我々は、自律運転領域を含む2つのマルチ制約安全領域において、客観抑制をベンチマークする。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - A Survey of Constraint Formulations in Safe Reinforcement Learning [17.52609277902876]
安全な強化学習は 実験データからエージェントのポリシーを 安全に最適化する強力なパラダイムです
一般的な安全なRLアプローチは、制約付き基準に基づいており、安全制約の下で期待される累積報酬を最大化する問題を解決する。
本稿では,各定式化に特化して設計されたアルゴリズムのキュレートされた選択とともに,代表的制約定式化の包括的レビューを行う。
我々は,安全強化学習研究の現状と今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-02-03T04:40:31Z) - Gradient Shaping for Multi-Constraint Safe Reinforcement Learning [31.297400160104853]
オンライン安全強化学習(RL)は、環境との対話を通じて制約を満たしながらタスク効率を最大化する政策を訓練する。
本稿では,MCセーフなRLアルゴリズムのための統一フレームワークを提案する。
一般ラグランジアンベースの安全なRLアルゴリズムのためのグラディエント・シェーピング(GradS)法を導入し、報酬と制約満足度の両方の観点からトレーニング効率を向上させる。
論文 参考訳(メタデータ) (2023-12-23T00:55:09Z) - State-wise Constrained Policy Optimization [7.761496127486411]
State-wise Constrained Policy Optimizationは、ステートワイド制約強化学習のための最初の汎用ポリシー探索アルゴリズムである。
SCPOは既存の手法を著しく上回り,高次元ロボット作業における状態制約を処理可能であることを示す。
論文 参考訳(メタデータ) (2023-06-21T22:28:17Z) - Handling Long and Richly Constrained Tasks through Constrained
Hierarchical Reinforcement Learning [20.280636126917614]
目標の安全性 強化学習(RL)の設定は通常、軌道上の制約によって処理される。
本稿では,上位レベルの制約付き検索エージェントと下位レベルの目標条件付きRLエージェントを組み合わせた(安全)階層型強化学習(CoSHRL)機構を提案する。
CoSHRLの大きな利点は、コスト値分布の制約を処理でき、再トレーニングなしに柔軟な制約しきい値に調整できることである。
論文 参考訳(メタデータ) (2023-02-21T12:57:12Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。