論文の概要: Achieving Zero Constraint Violation for Constrained Reinforcement
Learning via Primal-Dual Approach
- arxiv url: http://arxiv.org/abs/2109.06332v1
- Date: Mon, 13 Sep 2021 21:27:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 04:46:36.088583
- Title: Achieving Zero Constraint Violation for Constrained Reinforcement
Learning via Primal-Dual Approach
- Title(参考訳): 初等・二次アプローチによる制約付き強化学習におけるゼロ制約違反の実現
- Authors: Qinbo Bai, Amrit Singh Bedi, Mridul Agarwal, Alec Koppel and Vaneet
Aggarwal
- Abstract要約: 強化学習は、環境と対話しながらシーケンシャルな決定を行う必要があるアプリケーションで広く使われている。
決定要件がいくつかの安全制約を満たすことを含むと、問題はより難しくなります。
CMDP問題をモデルのない方法で解き、$epsilon$-optimal cumulative rewardを$epsilon$-factible Policyで達成することができる。
ここでの重要な疑問は、制約違反ゼロで$epsilon$-optimal cumulative rewardを達成できるかどうかである。
- 参考スコア(独自算出の注目度): 37.80609997145897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning is widely used in applications where one needs to
perform sequential decisions while interacting with the environment. The
problem becomes more challenging when the decision requirement includes
satisfying some safety constraints. The problem is mathematically formulated as
constrained Markov decision process (CMDP). In the literature, various
algorithms are available to solve CMDP problems in a model-free manner to
achieve $\epsilon$-optimal cumulative reward with $\epsilon$ feasible policies.
An $\epsilon$-feasible policy implies that it suffers from constraint
violation. An important question here is whether we can achieve
$\epsilon$-optimal cumulative reward with zero constraint violations or not. To
achieve that, we advocate the use of a randomized primal-dual approach to
solving the CMDP problems and propose a conservative stochastic primal-dual
algorithm (CSPDA) which is shown to exhibit $\tilde{\mathcal{O}}(1/\epsilon^2)$
sample complexity to achieve $\epsilon$-optimal cumulative reward with zero
constraint violations. In the prior works, the best available sample complexity
for the $\epsilon$-optimal policy with zero constraint violation is
$\tilde{\mathcal{O}}(1/\epsilon^5)$. Hence, the proposed algorithm provides a
significant improvement as compared to the state of the art.
- Abstract(参考訳): 強化学習は、環境と対話しながら逐次的な決定を行う必要があるアプリケーションで広く使われている。
決定要件がいくつかの安全制約を満たすことを含むと、問題はより難しくなります。
この問題は、マルコフ決定過程(CMDP)として数学的に定式化されている。
文献では、CMDP問題をモデルのない方法で解き、$\epsilon$-optimal cumulative reward with $\epsilon$ feasible Policy を達成するために様々なアルゴリズムが利用できる。
$\epsilon$-feasibleポリシーは、制約違反に悩まされていることを意味する。
ここでの重要な問題は、制約違反ゼロで$\epsilon$-optimal cumulative rewardを達成できるかどうかである。
これを実現するために,CMDP問題に対するランダム化原始双対手法の活用を提唱し,制約違反ゼロで$\epsilon$-optimal cumulative reward を達成するために$\tilde{\mathcal{O}}(1/\epsilon^2)$サンプル複雑性を示す保守的確率的原始双対アルゴリズム(CSPDA)を提案する。
以前の研究では、制約違反のない$\epsilon$-optimal policyの最良のサンプル複雑さは$\tilde{\mathcal{o}}(1/\epsilon^5)$である。
したがって,提案アルゴリズムは,最先端技術に比べて大幅に改善される。
関連論文リスト
- Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs [17.62509045102346]
本稿では,CMDP(Constrained Markov Decision Processs)における最適ポリシー識別問題について考察する。
私たちは、モデルフリーで、後悔の少ないアルゴリズムに興味を持ち、確率の高いほぼ最適なポリシーを特定しています。
オンラインCMDPのサブ線形後悔と制約違反を伴う既存のモデルフリーアルゴリズムでは、最適ポリシーに対する収束保証は提供されない。
論文 参考訳(メタデータ) (2023-09-27T04:33:09Z) - Safe Posterior Sampling for Constrained MDPs with Bounded Constraint
Violation [8.849815837266977]
制約付きマルコフ決定プロセス(CMDP)は、多くのアプリケーションにおいてますます重要になっている複数の目的を持つシーケンシャルな意思決定のシナリオをモデル化する。
我々は,そのような仮定を必要とせず,しかも非常によく機能するSafe PSRL (posterior sample-based RL)アルゴリズムを提案する。
準線形$tildemathcal Oleft(H2.5 sqrt|mathcalS|2 |mathcalA|K right)$上界をベイズ賞の目的的後悔と、有界なイデアルとともに成立させる。
論文 参考訳(メタデータ) (2023-01-27T06:18:25Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Towards Painless Policy Optimization for Constrained MDPs [46.12526917024248]
我々は、無限の地平線における政策最適化、$gamma$-discounted constrained Markov decision process (CMDP)について研究する。
我々の目標は、小さな制約違反で大きな期待された報酬を達成する政策を返却することである。
本稿では,任意のアルゴリズムに対して,報酬の準最適性と制約違反を拘束できる汎用的原始双対フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-11T15:08:09Z) - Model-Free Algorithm and Regret Analysis for MDPs with Long-Term
Constraints [38.2783003051101]
本稿では,制約付き最適化とQ-ラーニングの概念を用いて,長期制約付きCMDPのアルゴリズムを提案する。
本研究は, 長期的制約を伴うMDPの遺残分析における最初の結果であり, 遷移確率はアプリオリではないことに留意する。
論文 参考訳(メタデータ) (2020-06-10T17:19:29Z) - Provably Efficient Model-Free Algorithm for MDPs with Peak Constraints [38.2783003051101]
本稿では,有限地平線における全報酬の最大化と,各エポックにおける制約を確率1で満たすため,エージェントがポリシーを選択する,制約付きマルコフ決定プロセス(PCMDP)について考察する。
そこで本研究では,PCMDP問題を制約のない問題に変換するモデルフリーアルゴリズムを提案し,Q-ラーニングに基づくアプローチを適用した。
論文 参考訳(メタデータ) (2020-03-11T23:23:29Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。