論文の概要: Provably Efficient Safe Exploration via Primal-Dual Policy Optimization
- arxiv url: http://arxiv.org/abs/2003.00534v2
- Date: Mon, 26 Oct 2020 02:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 12:55:46.424054
- Title: Provably Efficient Safe Exploration via Primal-Dual Policy Optimization
- Title(参考訳): 初歩的政策最適化による効率的な安全探索
- Authors: Dongsheng Ding, Xiaohan Wei, Zhuoran Yang, Zhaoran Wang, Mihailo R.
Jovanovi\'c
- Abstract要約: 制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 105.7510838453122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the Safe Reinforcement Learning (SRL) problem using the Constrained
Markov Decision Process (CMDP) formulation in which an agent aims to maximize
the expected total reward subject to a safety constraint on the expected total
value of a utility function. We focus on an episodic setting with the function
approximation where the Markov transition kernels have a linear structure but
do not impose any additional assumptions on the sampling model. Designing SRL
algorithms with provable computational and statistical efficiency is
particularly challenging under this setting because of the need to incorporate
both the safety constraint and the function approximation into the fundamental
exploitation/exploration tradeoff. To this end, we present an
\underline{O}ptimistic \underline{P}rimal-\underline{D}ual Proximal Policy
\underline{OP}timization (OPDOP) algorithm where the value function is
estimated by combining the least-squares policy evaluation and an additional
bonus term for safe exploration. We prove that the proposed algorithm achieves
an $\tilde{O}(d H^{2.5}\sqrt{T})$ regret and an $\tilde{O}(d H^{2.5}\sqrt{T})$
constraint violation, where $d$ is the dimension of the feature mapping, $H$ is
the horizon of each episode, and $T$ is the total number of steps. These bounds
hold when the reward/utility functions are fixed but the feedback after each
episode is bandit. Our bounds depend on the capacity of the state-action space
only through the dimension of the feature mapping and thus our results hold
even when the number of states goes to infinity. To the best of our knowledge,
we provide the first provably efficient online policy optimization algorithm
for CMDP with safe exploration in the function approximation setting.
- Abstract(参考訳): 提案手法は,有効関数の総値に対する安全性制約の対象となる全報酬を最大化することを目的とした,制約付きマルコフ決定プロセス(CMDP)の定式化を用いて,安全強化学習(SRL)問題を考察する。
我々はマルコフ遷移核が線形構造を持つが、サンプリングモデルに追加の仮定を課さない関数近似によるエピソディック設定に焦点を当てる。
保証可能な計算効率と統計的効率でSRLアルゴリズムを設計することは、安全制約と関数近似の両方を基本的なエクスプロレーション/探索トレードオフに組み込む必要があるため、この設定では特に困難である。
この目的のために、最小二乗ポリシー評価と安全な探索のための追加のボーナス項を組み合わせることで、値関数を推定する、 \underline{O}ptimistic \underline{P}rimal-\underline{D}ual Proximal Policy \underline{OP}timization (OPDOP)アルゴリズムを提案する。
提案アルゴリズムは, 特徴写像の次元が$d$, エピソード毎の地平線が$H$, ステップ毎の$T$が$\tilde{O}(d H^{2.5}\sqrt{T})$後悔と$\tilde{O}(d H^{2.5}\sqrt{T})$制約違反を実現する。
これらの境界は、報酬/効用機能が固定された時に保持されるが、各エピソードの後のフィードバックはバンディットである。
我々の境界は、特徴写像の次元を通してのみ状態-作用空間の容量に依存するため、状態の数が無限になるときでさえ結果が保たれる。
最善の知識を得るために,我々は,関数近似設定において安全な探索を行うことで,cmdpのオンラインポリシー最適化アルゴリズムを初めて実現可能なものにする。
関連論文リスト
- Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs [44.69257217086967]
制約付きマルコフ決定プロセス(CMDP)フレームワークは、安全性や他の重要な目的を課すための重要な強化学習アプローチとして出現する。
本稿では,線形関数近似が$q_pi$-realizabilityで与えられる学習問題に対処する。
論文 参考訳(メタデータ) (2024-06-26T17:57:13Z) - Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with
General Utilities [12.104551746465932]
安全マルチエージェント強化学習について検討し、エージェントはそれぞれの安全制約を満たしつつ、局所的な目的の総和をまとめて最大化しようとする。
我々のアルゴリズムは、$mathcalOleft(T-2/3right)$のレートで1次定常点(FOSP)に収束する。
サンプルベースの設定では、高い確率で、我々のアルゴリズムは、$epsilon$-FOSPを達成するために$widetildemathcalOleft(epsilon-3.5right)$サンプルが必要です。
論文 参考訳(メタデータ) (2023-05-27T20:08:35Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Provably Efficient Reinforcement Learning via Surprise Bound [66.15308700413814]
本稿では,一般値関数近似を用いた効率の良い強化学習アルゴリズムを提案する。
本アルゴリズムは, 線形設定と疎高次元線形設定の両方に適用した場合に, 合理的な後悔境界を達成できる。
論文 参考訳(メタデータ) (2023-02-22T20:21:25Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Achieving Zero Constraint Violation for Constrained Reinforcement Learning via Conservative Natural Policy Gradient Primal-Dual Algorithm [42.83837408373223]
連続状態-作用空間におけるマルコフ決定過程(CMDP)の問題点を考察する。
本稿では,ゼロ制約違反を実現するために,新しい保守的自然ポリシーグラディエント・プライマル・ダイアルアルゴリズム(C-NPG-PD)を提案する。
論文 参考訳(メタデータ) (2022-06-12T22:31:43Z) - Towards Painless Policy Optimization for Constrained MDPs [46.12526917024248]
我々は、無限の地平線における政策最適化、$gamma$-discounted constrained Markov decision process (CMDP)について研究する。
我々の目標は、小さな制約違反で大きな期待された報酬を達成する政策を返却することである。
本稿では,任意のアルゴリズムに対して,報酬の準最適性と制約違反を拘束できる汎用的原始双対フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-11T15:08:09Z) - Safe Exploration for Constrained Reinforcement Learning with Provable
Guarantees [2.379828460137829]
そこで我々は,OPSRL(Optimistic-Pessimistic Safe Reinforcement Learning)アルゴリズムと呼ぶモデルベースの安全なRLアルゴリズムを提案する。
学習中の安全性制約に違反することなく, $tildemathcalO(S2sqrtA H7K/ (barC - barC_b)$ cumulative regretを達成できることを示す。
論文 参考訳(メタデータ) (2021-12-01T23:21:48Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Safe Learning under Uncertain Objectives and Constraints [66.05180398174286]
我々は、テキスト不明で安全クリティカルな制約の下で、非テクスト無知かつ安全クリティカルな最適化問題を考察する。
このような問題は、ロボティクス、製造、医療などの様々な領域で自然に発生する。
我々の分析の重要な要素は、安全な最適化の文脈で収縮と呼ばれる手法を導入し、適用することである。
論文 参考訳(メタデータ) (2020-06-23T20:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。