論文の概要: Towards Painless Policy Optimization for Constrained MDPs
- arxiv url: http://arxiv.org/abs/2204.05176v1
- Date: Mon, 11 Apr 2022 15:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 14:28:08.349028
- Title: Towards Painless Policy Optimization for Constrained MDPs
- Title(参考訳): 拘束型MDPの無痛政策最適化に向けて
- Authors: Arushi Jain, Sharan Vaswani, Reza Babanezhad, Csaba Szepesvari, Doina
Precup
- Abstract要約: 我々は、無限の地平線における政策最適化、$gamma$-discounted constrained Markov decision process (CMDP)について研究する。
我々の目標は、小さな制約違反で大きな期待された報酬を達成する政策を返却することである。
本稿では,任意のアルゴリズムに対して,報酬の準最適性と制約違反を拘束できる汎用的原始双対フレームワークを提案する。
- 参考スコア(独自算出の注目度): 46.12526917024248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study policy optimization in an infinite horizon, $\gamma$-discounted
constrained Markov decision process (CMDP). Our objective is to return a policy
that achieves large expected reward with a small constraint violation. We
consider the online setting with linear function approximation and assume
global access to the corresponding features. We propose a generic primal-dual
framework that allows us to bound the reward sub-optimality and constraint
violation for arbitrary algorithms in terms of their primal and dual regret on
online linear optimization problems. We instantiate this framework to use
coin-betting algorithms and propose the Coin Betting Politex (CBP) algorithm.
Assuming that the action-value functions are $\varepsilon_b$-close to the span
of the $d$-dimensional state-action features and no sampling errors, we prove
that $T$ iterations of CBP result in an $O\left(\frac{1}{(1 - \gamma)^3
\sqrt{T}} + \frac{\varepsilon_b\sqrt{d}}{(1 - \gamma)^2} \right)$ reward
sub-optimality and an $O\left(\frac{1}{(1 - \gamma)^2 \sqrt{T}} +
\frac{\varepsilon_b \sqrt{d}}{1 - \gamma} \right)$ constraint violation.
Importantly, unlike gradient descent-ascent and other recent methods, CBP does
not require extensive hyperparameter tuning. Via experiments on synthetic and
Cartpole environments, we demonstrate the effectiveness and robustness of CBP.
- Abstract(参考訳): 政策最適化を無限の地平線,$\gamma$-discounted constrained Markov decision process (CMDP) で研究する。
私たちの目標は、小さな制約違反で大きな期待値を達成するポリシーを返すことです。
線形関数近似によるオンライン設定を検討し,対応する機能へのグローバルアクセスを仮定する。
オンライン線形最適化問題に対する予備的かつ二重的後悔の観点から,任意のアルゴリズムに対する報酬副最適化性と制約違反を制限できる汎用的原始双対フレームワークを提案する。
我々はこのフレームワークをインスタンス化してコインベッティングアルゴリズムを使用し、コインベッティングポリテックス(CBP)アルゴリズムを提案する。
アクション値関数が$\varepsilon_b$--d$-dimensional state-action featuresのスパンに近く、サンプリングエラーがないと仮定すると、cppの$t$反復は$o\left(\frac{1}{(1 - \gamma)^3 \sqrt{t}} + \frac{\varepsilon_b\sqrt{d}}{(1 - \gamma)^2} \right)$ reward sub-optimality と$o\left(\frac{1}{(1 - \gamma)^2 \sqrt{t}} + \frac{\varepsilon_b \sqrt{d}}{1 - \gamma} \right)$ 制約を犯す。
重要なことに、勾配降下上昇法や他の最近の手法とは異なり、CBPは広範なハイパーパラメータチューニングを必要としない。
合成およびカルトポール環境の実験により, CBPの有効性とロバスト性を実証した。
関連論文リスト
- Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs [17.62509045102346]
本稿では,CMDP(Constrained Markov Decision Processs)における最適ポリシー識別問題について考察する。
私たちは、モデルフリーで、後悔の少ないアルゴリズムに興味を持ち、確率の高いほぼ最適なポリシーを特定しています。
オンラインCMDPのサブ線形後悔と制約違反を伴う既存のモデルフリーアルゴリズムでは、最適ポリシーに対する収束保証は提供されない。
論文 参考訳(メタデータ) (2023-09-27T04:33:09Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Achieving Zero Constraint Violation for Constrained Reinforcement Learning via Conservative Natural Policy Gradient Primal-Dual Algorithm [42.83837408373223]
連続状態-作用空間におけるマルコフ決定過程(CMDP)の問題点を考察する。
本稿では,ゼロ制約違反を実現するために,新しい保守的自然ポリシーグラディエント・プライマル・ダイアルアルゴリズム(C-NPG-PD)を提案する。
論文 参考訳(メタデータ) (2022-06-12T22:31:43Z) - Achieving Zero Constraint Violation for Constrained Reinforcement
Learning via Primal-Dual Approach [37.80609997145897]
強化学習は、環境と対話しながらシーケンシャルな決定を行う必要があるアプリケーションで広く使われている。
決定要件がいくつかの安全制約を満たすことを含むと、問題はより難しくなります。
CMDP問題をモデルのない方法で解き、$epsilon$-optimal cumulative rewardを$epsilon$-factible Policyで達成することができる。
ここでの重要な疑問は、制約違反ゼロで$epsilon$-optimal cumulative rewardを達成できるかどうかである。
論文 参考訳(メタデータ) (2021-09-13T21:27:03Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。