論文の概要: A Near-Optimal Algorithm for Safe Reinforcement Learning Under
Instantaneous Hard Constraints
- arxiv url: http://arxiv.org/abs/2302.04375v1
- Date: Wed, 8 Feb 2023 23:42:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 17:16:30.394976
- Title: A Near-Optimal Algorithm for Safe Reinforcement Learning Under
Instantaneous Hard Constraints
- Title(参考訳): 瞬時制約下における安全強化学習のための近似最適アルゴリズム
- Authors: Ming Shi, Yingbin Liang, Ness Shroff
- Abstract要約: 我々は,安全でない状態と動作を持つマルコフ決定過程に対して,第1次近似安全RLアルゴリズムを開発した。
これは、その設定における最先端の後悔と密に一致する後悔の$tildeO(fracd H3 sqrtdKDelta_c)$を達成する。
また、$tildeOmega(maxdH sqrtK, fracHDelta_c2)$の低いバウンドも提供しています。
- 参考スコア(独自算出の注目度): 43.895798638743784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many applications of Reinforcement Learning (RL), it is critically
important that the algorithm performs safely, such that instantaneous hard
constraints are satisfied at each step, and unsafe states and actions are
avoided. However, existing algorithms for ''safe'' RL are often designed under
constraints that either require expected cumulative costs to be bounded or
assume all states are safe. Thus, such algorithms could violate instantaneous
hard constraints and traverse unsafe states (and actions) in practice.
Therefore, in this paper, we develop the first near-optimal safe RL algorithm
for episodic Markov Decision Processes with unsafe states and actions under
instantaneous hard constraints and the linear mixture model. It not only
achieves a regret $\tilde{O}(\frac{d H^3 \sqrt{dK}}{\Delta_c})$ that tightly
matches the state-of-the-art regret in the setting with only unsafe actions and
nearly matches that in the unconstrained setting, but is also safe at each
step, where $d$ is the feature-mapping dimension, $K$ is the number of
episodes, $H$ is the number of steps in each episode, and $\Delta_c$ is a
safety-related parameter. We also provide a lower bound
$\tilde{\Omega}(\max\{dH \sqrt{K}, \frac{H}{\Delta_c^2}\})$, which indicates
that the dependency on $\Delta_c$ is necessary. Further, both our algorithm
design and regret analysis involve several novel ideas, which may be of
independent interest.
- Abstract(参考訳): 強化学習(rl)の多くの応用において,各ステップで瞬時に厳しい制約を満たし,安全でない状態や動作を避けるように,アルゴリズムが安全に動作することが極めて重要である。
しかしながら、'safe' RLの既存のアルゴリズムは、期待される累積コストを束縛するか、あるいは全ての状態が安全であると仮定する制約の下で設計されることが多い。
したがって、そのようなアルゴリズムは瞬時に厳しい制約を犯し、実際は安全でない状態(および行動)を横切る可能性がある。
そこで,本稿では,安全でない状態と動作を瞬時制約と線形混合モデルで表わしたマルコフ決定過程に対して,第1次近似安全RLアルゴリズムを開発した。
これは、unsafeアクションとほぼ一致し、unconstrained設定でほぼ一致している設定における、最先端の後悔と密に一致する、result$\tilde{o}(\frac{d h^3 \sqrt{dk}}{\delta_c})$を達成するだけでなく、各ステップにおいて、$d$がフィーチャーマッピングディメンション、$k$がエピソード数、$h$が各エピソードのステップ数、$\delta_c$が安全関連パラメータである。
また、下限の$\tilde{\Omega}(\max\{dH \sqrt{K}, \frac{H}{\Delta_c^2}\})$も提供します。
さらに、アルゴリズム設計と後悔分析の両方には、独立した関心を持つかもしれないいくつかの新しいアイデアが含まれている。
関連論文リスト
- Safe Reinforcement Learning with Instantaneous Constraints: The Role of
Aggressive Exploration [20.630973009400574]
本稿では,線形関数近似を用いた安全強化学習(セーフRL)について,短時間の制約下で検討する。
提案アルゴリズムであるLSVI-AEは,コスト関数が線形であれば$tildecO(sqrtd3H4K)$ハード制約違反,コスト関数がRKHSに属する場合は$cO(Hgamma_K sqrtK)$ハード制約違反を実現する。
論文 参考訳(メタデータ) (2023-12-22T06:45:45Z) - Provably Efficient Reinforcement Learning via Surprise Bound [66.15308700413814]
本稿では,一般値関数近似を用いた効率の良い強化学習アルゴリズムを提案する。
本アルゴリズムは, 線形設定と疎高次元線形設定の両方に適用した場合に, 合理的な後悔境界を達成できる。
論文 参考訳(メタデータ) (2023-02-22T20:21:25Z) - Provably Safe Reinforcement Learning with Step-wise Violation
Constraints [26.020907891512596]
我々は、より厳格なステップワイド違反を考慮し、安全な行動の存在を前提としない。
本稿では,ステップワイドティルデO(sqrtST)=ステップワイドティルデO(sqrtH3SAT)$後悔を保証する新しいアルゴリズムSUCBVIを提案する。
また、ステップワイドな違反制約を伴う新たな安全無報酬探索問題についても検討する。
論文 参考訳(メタデータ) (2023-02-13T02:56:04Z) - Near-Minimax-Optimal Risk-Sensitive Reinforcement Learning with CVaR [58.40575099910538]
本研究は,リスク許容度が$tau$のCVaR(Conditional Value at Risk)の目的に着目し,リスクに敏感な強化学習(RL)について検討する。
ミニマックスCVaRの後悔率は$Omega(sqrttau-1AK)$で、$A$はアクションの数、$K$はエピソード数である。
我々は,このアルゴリズムが連続性仮定の下で$widetilde O(tau-1sqrtSAK)$の最適後悔を達成し,一般に近似することを示す。
論文 参考訳(メタデータ) (2023-02-07T02:22:31Z) - Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear
Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。
提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。
本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文 参考訳(メタデータ) (2022-12-12T15:04:56Z) - Safe Exploration for Constrained Reinforcement Learning with Provable
Guarantees [2.379828460137829]
そこで我々は,OPSRL(Optimistic-Pessimistic Safe Reinforcement Learning)アルゴリズムと呼ぶモデルベースの安全なRLアルゴリズムを提案する。
学習中の安全性制約に違反することなく, $tildemathcalO(S2sqrtA H7K/ (barC - barC_b)$ cumulative regretを達成できることを示す。
論文 参考訳(メタデータ) (2021-12-01T23:21:48Z) - Safe Reinforcement Learning with Linear Function Approximation [48.75026009895308]
我々は、状態と行動の未知の線形コスト関数として安全を導入し、それは常に一定の閾値以下でなければならない。
次に,線形関数近似を用いたマルコフ決定過程(MDP)について,SLUCB-QVIおよびRSLUCB-QVIと呼ぶアルゴリズムを提案する。
SLUCB-QVI と RSLUCB-QVI は、Emphno safety violation で $tildemathcalOleft(kappasqrtd3H3Tright)$ regret, almost matching を達成した。
論文 参考訳(メタデータ) (2021-06-11T08:46:57Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。