論文の概要: State-wise Safe Reinforcement Learning: A Survey
- arxiv url: http://arxiv.org/abs/2302.03122v3
- Date: Fri, 30 Jun 2023 19:12:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 14:40:41.190226
- Title: State-wise Safe Reinforcement Learning: A Survey
- Title(参考訳): 国家の安全強化学習に関する調査
- Authors: Weiye Zhao, Tairan He, Rui Chen, Tianhao Wei, Changliu Liu
- Abstract要約: ステートワイド制約は、現実世界のアプリケーションにおいて最も一般的な制約の1つです。
本稿では,RLにおける状態制約に対処する既存のアプローチについて概説する。
- 参考スコア(独自算出の注目度): 5.826308050755618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the tremendous success of Reinforcement Learning (RL) algorithms in
simulation environments, applying RL to real-world applications still faces
many challenges. A major concern is safety, in another word, constraint
satisfaction. State-wise constraints are one of the most common constraints in
real-world applications and one of the most challenging constraints in Safe RL.
Enforcing state-wise constraints is necessary and essential to many challenging
tasks such as autonomous driving, robot manipulation. This paper provides a
comprehensive review of existing approaches that address state-wise constraints
in RL. Under the framework of State-wise Constrained Markov Decision Process
(SCMDP), we will discuss the connections, differences, and trade-offs of
existing approaches in terms of (i) safety guarantee and scalability, (ii)
safety and reward performance, and (iii) safety after convergence and during
training. We also summarize limitations of current methods and discuss
potential future directions.
- Abstract(参考訳): シミュレーション環境でRL(Reinforcement Learning)アルゴリズムが驚くほど成功したにもかかわらず、実世界のアプリケーションにRLを適用することは、まだ多くの課題に直面している。
主な懸念事項は安全性、つまり制約満足度である。
状態毎の制約は、現実世界のアプリケーションで最も一般的な制約の1つであり、safe rlで最も難しい制約の1つです。
自律運転やロボット操作など,多くの課題に対して,国家的制約の実施が不可欠である。
本稿では、RLにおける状態制約に対処する既存のアプローチを包括的にレビューする。
SCMDP(State-wise Constrained Markov Decision Process)の枠組みの下で、既存のアプローチの関連、相違、トレードオフについて議論する。
(i)安全性の保証と拡張性。
(ii)安全と報酬の成果、及び
(iii)収束後及び訓練中の安全性。
また,現在の手法の限界を要約し,今後の方向性について考察する。
関連論文リスト
- Absolute State-wise Constrained Policy Optimization: High-Probability State-wise Constraints Satisfaction [20.00178731842195]
既存の安全な強化学習(RL)手法は、期待する状態の制約を強制するか、強い仮定で厳格な状態の制約を強制するのみである。
本稿では,制約システムに対する高確率な状態満足度を保証するための,新しい汎用ポリシー探索アルゴリズムを提案する。
この結果から, ASCPO は, 連続制御タスクにおける状態制約処理において, 既存の手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-10-02T03:43:33Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - A Survey of Constraint Formulations in Safe Reinforcement Learning [15.593999581562203]
現実世界の問題に強化学習を適用する場合、安全性は重要です。
一般的な安全なRLアプローチは、期待される累積報酬を最大化する制約付き基準に基づいている。
近年のRLの安全性向上努力にもかかわらず、この分野の体系的な理解は依然として困難である。
論文 参考訳(メタデータ) (2024-02-03T04:40:31Z) - Gradient Shaping for Multi-Constraint Safe Reinforcement Learning [31.297400160104853]
オンライン安全強化学習(RL)は、環境との対話を通じて制約を満たしながらタスク効率を最大化する政策を訓練する。
本稿では,MCセーフなRLアルゴリズムのための統一フレームワークを提案する。
一般ラグランジアンベースの安全なRLアルゴリズムのためのグラディエント・シェーピング(GradS)法を導入し、報酬と制約満足度の両方の観点からトレーニング効率を向上させる。
論文 参考訳(メタデータ) (2023-12-23T00:55:09Z) - State-wise Constrained Policy Optimization [10.815583111876892]
State-wise Constrained Policy Optimizationは、ステートワイド制約強化学習のための最初の汎用ポリシー探索アルゴリズムである。
SCPOは既存の手法を著しく上回り,高次元ロボット作業における状態制約を処理可能であることを示す。
論文 参考訳(メタデータ) (2023-06-21T22:28:17Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。