論文の概要: Safe Exploration for Constrained Reinforcement Learning with Provable
Guarantees
- arxiv url: http://arxiv.org/abs/2112.00885v1
- Date: Wed, 1 Dec 2021 23:21:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-04 06:46:29.126865
- Title: Safe Exploration for Constrained Reinforcement Learning with Provable
Guarantees
- Title(参考訳): 証明可能な保証による制約付き強化学習のための安全な探索
- Authors: Archana Bura, Aria HasanzadeZonuzy, Dileep Kalathil, Srinivas
Shakkottai, and Jean-Francois Chamberland
- Abstract要約: そこで我々は,OPSRL(Optimistic-Pessimistic Safe Reinforcement Learning)アルゴリズムと呼ぶモデルベースの安全なRLアルゴリズムを提案する。
学習中の安全性制約に違反することなく, $tildemathcalO(S2sqrtA H7K/ (barC - barC_b)$ cumulative regretを達成できることを示す。
- 参考スコア(独自算出の注目度): 2.379828460137829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of learning an episodic safe control policy that
minimizes an objective function, while satisfying necessary safety constraints
-- both during learning and deployment. We formulate this safety constrained
reinforcement learning (RL) problem using the framework of a finite-horizon
Constrained Markov Decision Process (CMDP) with an unknown transition
probability function. Here, we model the safety requirements as constraints on
the expected cumulative costs that must be satisfied during all episodes of
learning. We propose a model-based safe RL algorithm that we call the
Optimistic-Pessimistic Safe Reinforcement Learning (OPSRL) algorithm, and show
that it achieves an $\tilde{\mathcal{O}}(S^{2}\sqrt{A H^{7}K}/ (\bar{C} -
\bar{C}_{b}))$ cumulative regret without violating the safety constraints
during learning, where $S$ is the number of states, $A$ is the number of
actions, $H$ is the horizon length, $K$ is the number of learning episodes, and
$(\bar{C} - \bar{C}_{b})$ is the safety gap, i.e., the difference between the
constraint value and the cost of a known safe baseline policy. The scaling as
$\tilde{\mathcal{O}}(\sqrt{K})$ is the same as the traditional approach where
constraints may be violated during learning, which means that our algorithm
suffers no additional regret in spite of providing a safety guarantee. Our key
idea is to use an optimistic exploration approach with pessimistic constraint
enforcement for learning the policy. This approach simultaneously incentivizes
the exploration of unknown states while imposing a penalty for visiting states
that are likely to cause violation of safety constraints. We validate our
algorithm by evaluating its performance on benchmark problems against
conventional approaches.
- Abstract(参考訳): 我々は,目標機能を最小限に抑えつつ,必要な安全性制約を満たしながら,学習と展開の両方において,エピソディックセーフコントロールポリシを学習する問題を考える。
我々は,未知遷移確率関数を持つ有限ホライゾン制約マルコフ決定過程(cmdp)の枠組みを用いて,この安全性制約強化学習(rl)問題を定式化する。
ここでは,学習のすべてのエピソードにおいて満たさなければならない累積コストに対する制約として,安全要件をモデル化する。
We propose a model-based safe RL algorithm that we call the Optimistic-Pessimistic Safe Reinforcement Learning (OPSRL) algorithm, and show that it achieves an $\tilde{\mathcal{O}}(S^{2}\sqrt{A H^{7}K}/ (\bar{C}\bar{C}_{b}))$ cumulative regret without violating the safety constraints during learning, where $S$ is the number of states, $A$ is the number of actions, $H$ is the horizon length, $K$ is the number of learning episodes, and $(\bar{C} - \bar{C}_{b})$ is the safety gap, i.e., the difference between the constraint value and the cost of a known safe baseline policy.
$\tilde{\mathcal{o}}(\sqrt{k})$のスケーリングは、学習中に制約が破られる可能性がある従来のアプローチと同じです。
私たちのキーとなる考え方は、政策を学ぶために悲観的な制約執行を伴う楽観的な探索アプローチを使用することです。
このアプローチは、安全制約に違反する可能性のある訪問状態に対する罰を課しながら、未知の状態の探索をインセンティブ化する。
従来の手法に対するベンチマーク問題に対する性能評価を行い,アルゴリズムの有効性を検証する。
関連論文リスト
- Safe Reinforcement Learning with Instantaneous Constraints: The Role of
Aggressive Exploration [20.630973009400574]
本稿では,線形関数近似を用いた安全強化学習(セーフRL)について,短時間の制約下で検討する。
提案アルゴリズムであるLSVI-AEは,コスト関数が線形であれば$tildecO(sqrtd3H4K)$ハード制約違反,コスト関数がRKHSに属する場合は$cO(Hgamma_K sqrtK)$ハード制約違反を実現する。
論文 参考訳(メタデータ) (2023-12-22T06:45:45Z) - Safe Deep Reinforcement Learning by Verifying Task-Level Properties [84.64203221849648]
コスト関数は、安全深層強化学習(DRL)において一般的に用いられる。
このコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。
本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
論文 参考訳(メタデータ) (2023-02-20T15:24:06Z) - Provably Safe Reinforcement Learning with Step-wise Violation
Constraints [26.020907891512596]
我々は、より厳格なステップワイド違反を考慮し、安全な行動の存在を前提としない。
本稿では,ステップワイドティルデO(sqrtST)=ステップワイドティルデO(sqrtH3SAT)$後悔を保証する新しいアルゴリズムSUCBVIを提案する。
また、ステップワイドな違反制約を伴う新たな安全無報酬探索問題についても検討する。
論文 参考訳(メタデータ) (2023-02-13T02:56:04Z) - A Near-Optimal Algorithm for Safe Reinforcement Learning Under
Instantaneous Hard Constraints [43.895798638743784]
我々は,安全でない状態と動作を持つマルコフ決定過程に対して,第1次近似安全RLアルゴリズムを開発した。
これは、その設定における最先端の後悔と密に一致する後悔の$tildeO(fracd H3 sqrtdKDelta_c)$を達成する。
また、$tildeOmega(maxdH sqrtK, fracHDelta_c2)$の低いバウンドも提供しています。
論文 参考訳(メタデータ) (2023-02-08T23:42:04Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - SAUTE RL: Almost Surely Safe Reinforcement Learning Using State
Augmentation [63.25418599322092]
安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。
安全性向上型マルコフ決定プロセス(MDP)の導入による課題に対処する。
Saute MDPがSafe Augmentationの問題を、新機能の異なる視点から見ることができることを示す。
論文 参考訳(メタデータ) (2022-02-14T08:57:01Z) - Safe Reinforcement Learning with Linear Function Approximation [48.75026009895308]
我々は、状態と行動の未知の線形コスト関数として安全を導入し、それは常に一定の閾値以下でなければならない。
次に,線形関数近似を用いたマルコフ決定過程(MDP)について,SLUCB-QVIおよびRSLUCB-QVIと呼ぶアルゴリズムを提案する。
SLUCB-QVI と RSLUCB-QVI は、Emphno safety violation で $tildemathcalOleft(kappasqrtd3H3Tright)$ regret, almost matching を達成した。
論文 参考訳(メタデータ) (2021-06-11T08:46:57Z) - Learning Policies with Zero or Bounded Constraint Violation for
Constrained MDPs [17.825031573375725]
我々は、マルコフ決定過程のエピソディックな枠組みで問題を提起する。
$tildemathcalO(sqrtK)$を許容し、$tildemathcalO(sqrtK)$制約違反を許容しながら、$tildemathcalO(sqrtK)$の報酬後悔を達成することができる。
厳密な安全ポリシーが知られている場合、任意の確率で制約違反をゼロに抑えることができることを示す。
論文 参考訳(メタデータ) (2021-06-04T19:46:55Z) - Safe Learning under Uncertain Objectives and Constraints [66.05180398174286]
我々は、テキスト不明で安全クリティカルな制約の下で、非テクスト無知かつ安全クリティカルな最適化問題を考察する。
このような問題は、ロボティクス、製造、医療などの様々な領域で自然に発生する。
我々の分析の重要な要素は、安全な最適化の文脈で収縮と呼ばれる手法を導入し、適用することである。
論文 参考訳(メタデータ) (2020-06-23T20:51:00Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。