論文の概要: Feasible Actor-Critic: Constrained Reinforcement Learning for Ensuring
Statewise Safety
- arxiv url: http://arxiv.org/abs/2105.10682v1
- Date: Sat, 22 May 2021 10:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 15:07:29.729163
- Title: Feasible Actor-Critic: Constrained Reinforcement Learning for Ensuring
Statewise Safety
- Title(参考訳): アクター批判の可能性:国家安全確保のための制約付き強化学習
- Authors: Haitong Ma, Yang Guan, Shegnbo Eben Li, Xiangteng Zhang, Sifa Zheng,
Jianyu Chen
- Abstract要約: 本稿では,モデルレス制約付き安全な強化学習法であるFACアルゴリズムを提案する。
我々は、どの政策を選択しても本質的に安全ではないと主張する州もあるが、他の州には安全を保証する政策があり、そのような州や政策は実現可能であると我々は主張する。
我々は,FACが制約満足度と報酬最適化の両方の観点から,従来の予測に基づく制約付きRL法より優れていることを理論的に保証する。
- 参考スコア(独自算出の注目度): 1.9573380763700712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The safety constraints commonly used by existing safe reinforcement learning
(RL) methods are defined only on expectation of initial states, but allow each
certain state to be unsafe, which is unsatisfying for real-world
safety-critical tasks. In this paper, we introduce the feasible actor-critic
(FAC) algorithm, which is the first model-free constrained RL method that
considers statewise safety, e.g, safety for each initial state. We claim that
some states are inherently unsafe no matter what policy we choose, while for
other states there exist policies ensuring safety, where we say such states and
policies are feasible. By constructing a statewise Lagrange function available
on RL sampling and adopting an additional neural network to approximate the
statewise Lagrange multiplier, we manage to obtain the optimal feasible policy
which ensures safety for each feasible state and the safest possible policy for
infeasible states. Furthermore, the trained multiplier net can indicate whether
a given state is feasible or not through the statewise complementary slackness
condition. We provide theoretical guarantees that FAC outperforms previous
expectation-based constrained RL methods in terms of both constraint
satisfaction and reward optimization. Experimental results on both robot
locomotive tasks and safe exploration tasks verify the safety enhancement and
feasibility interpretation of the proposed method.
- Abstract(参考訳): 既存の安全性強化学習(rl)手法で一般的に使用される安全制約は、初期状態の期待のみに基づいて定義されるが、それぞれの状態が安全でないことを許容する。
本稿では,各初期状態の安全性を考慮に入れた最初のモデルレス制約付きRL法である,実行可能アクタ・クリティカル(FAC)アルゴリズムを提案する。
我々は、ある州は、どの政策を選択しても本質的に安全ではないと主張しているが、他の州には、安全を確保する政策が存在する。
rlサンプリングで使用可能なステートワイズラグランジュ関数を構築し、ステートワイズラグランジュ乗算器を近似する追加ニューラルネットワークを採用することで、各実現可能な状態に対する安全性と実現不可能な状態に対する最も安全なポリシーを確保するための最適な実現可能ポリシーを得る。
さらに、訓練された乗算ネットは、状態的に相補的なスラックネス条件により、与えられた状態が実現可能であるか否かを示すことができる。
我々は,FACが制約満足度と報酬最適化の両方の観点から,従来の予測に基づく制約付きRL法より優れていることを理論的に保証する。
ロボットロコモティブタスクと安全探査タスクの両方に関する実験結果から,提案手法の安全性向上と実現可能性の検証が可能となった。
関連論文リスト
- Absolute State-wise Constrained Policy Optimization: High-Probability State-wise Constraints Satisfaction [20.00178731842195]
既存の安全な強化学習(RL)手法は、期待する状態の制約を強制するか、強い仮定で厳格な状態の制約を強制するのみである。
本稿では,制約システムに対する高確率な状態満足度を保証するための,新しい汎用ポリシー探索アルゴリズムを提案する。
この結果から, ASCPO は, 連続制御タスクにおける状態制約処理において, 既存の手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-10-02T03:43:33Z) - Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery [13.333197887318168]
安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々の手法は、最先端のアルゴリズムよりも安全性違反が少ないタスク性能を持つ。
論文 参考訳(メタデータ) (2023-06-24T12:02:50Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - SAUTE RL: Almost Surely Safe Reinforcement Learning Using State
Augmentation [63.25418599322092]
安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。
安全性向上型マルコフ決定プロセス(MDP)の導入による課題に対処する。
Saute MDPがSafe Augmentationの問題を、新機能の異なる視点から見ることができることを示す。
論文 参考訳(メタデータ) (2022-02-14T08:57:01Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。