論文の概要: Efficient Policy Optimization in Robust Constrained MDPs with Iteration Complexity Guarantees
- arxiv url: http://arxiv.org/abs/2505.19238v1
- Date: Sun, 25 May 2025 17:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.996819
- Title: Efficient Policy Optimization in Robust Constrained MDPs with Iteration Complexity Guarantees
- Title(参考訳): 反復複雑度保証付きロバスト制約MDPの効率的な政策最適化
- Authors: Sourav Ganguly, Arnob Ghosh, Kishan Panaganti, Adam Wierman,
- Abstract要約: 制約のある意思決定は、現実世界の制御システムにおける安全なポリシーの設計に不可欠である。
本稿では,制約値関数を効果的に最小化し,制約を満たす新しい手法を提案する。
そのようなアルゴリズムは、$O(epsilon-2)$の後に、少なくとも$epsilon$の準最適化と実現可能なポリシーを求める。
- 参考スコア(独自算出の注目度): 16.01190705000295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constrained decision-making is essential for designing safe policies in real-world control systems, yet simulated environments often fail to capture real-world adversities. We consider the problem of learning a policy that will maximize the cumulative reward while satisfying a constraint, even when there is a mismatch between the real model and an accessible simulator/nominal model. In particular, we consider the robust constrained Markov decision problem (RCMDP) where an agent needs to maximize the reward and satisfy the constraint against the worst possible stochastic model under the uncertainty set centered around an unknown nominal model. Primal-dual methods, effective for standard constrained MDP (CMDP), are not applicable here because of the lack of the strong duality property. Further, one cannot apply the standard robust value-iteration based approach on the composite value function either as the worst case models may be different for the reward value function and the constraint value function. We propose a novel technique that effectively minimizes the constraint value function--to satisfy the constraints; on the other hand, when all the constraints are satisfied, it can simply maximize the robust reward value function. We prove that such an algorithm finds a policy with at most $\epsilon$ sub-optimality and feasible policy after $O(\epsilon^{-2})$ iterations. In contrast to the state-of-the-art method, we do not need to employ a binary search, thus, we reduce the computation time by at least 4x for smaller value of discount factor ($\gamma$) and by at least 6x for larger value of $\gamma$.
- Abstract(参考訳): 制約のある意思決定は、現実世界の制御システムで安全なポリシーを設計するのに不可欠であるが、シミュレーションされた環境は、しばしば現実世界の敵を捕えるのに失敗する。
実モデルとアクセシブル・ノミナルモデルとのミスマッチがあっても,制約を満たすことなく累積報酬を最大化する政策を学習する問題を考える。
特に、エージェントが報酬を最大化し、未知の名義モデルを中心とした不確実性セットの下で最悪の確率的モデルに対する制約を満たすような頑健な制約付きマルコフ決定問題(RCMDP)を考える。
標準制約型MDP (CMDP) に有効な最小双対法は、強い双対性の欠如のため、ここでは適用できない。
さらに、報酬値関数と制約値関数に対して最悪のケースモデルが異なる場合があり得るため、合成値関数に対して標準的なロバストな値イテレーションに基づくアプローチを適用することはできない。
本稿では,制約を満たすために,制約値関数を効果的に最小化する手法を提案する。
そのようなアルゴリズムは、$O(\epsilon^{-2})$反復の後、少なくとも$\epsilon$ sub-optimality のポリシーと実現可能なポリシーを見つける。
最先端の手法とは対照的に、二分探索を用いる必要はないので、割引係数($\gamma$)の小さい値に対して計算時間を少なくとも4倍削減し、より大きい値として$\gamma$($\gamma$)の値に対して少なくとも6倍削減する。
関連論文リスト
- A single-loop SPIDER-type stochastic subgradient method for expectation-constrained nonconvex nonsmooth optimization [17.25924791071807]
複雑な制約に対する新しい種類の下次アルゴリズムを提案する。
提案手法は, 2-of-the-artアルゴリズムよりもはるかに高速であることを示す。
論文 参考訳(メタデータ) (2025-01-31T15:18:52Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Rectified Pessimistic-Optimistic Learning for Stochastic Continuum-armed
Bandit with Constraints [4.879346089164413]
ブラックボックスの報酬関数 $f(x)$ を、連続空間上のブラックボックス制約関数 $g(x)leq 0$ に最適化する。
本稿では,楽観的かつ悲観的なGPバンディット学習を取り入れたペナルティベース手法であるRectified Pessimistic-Optimistic Learning framework (RPOL)を提案する。
論文 参考訳(メタデータ) (2022-11-27T04:28:16Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Achieving Zero Constraint Violation for Constrained Reinforcement
Learning via Primal-Dual Approach [37.80609997145897]
強化学習は、環境と対話しながらシーケンシャルな決定を行う必要があるアプリケーションで広く使われている。
決定要件がいくつかの安全制約を満たすことを含むと、問題はより難しくなります。
CMDP問題をモデルのない方法で解き、$epsilon$-optimal cumulative rewardを$epsilon$-factible Policyで達成することができる。
ここでの重要な疑問は、制約違反ゼロで$epsilon$-optimal cumulative rewardを達成できるかどうかである。
論文 参考訳(メタデータ) (2021-09-13T21:27:03Z) - Implicitly Regularized RL with Implicit Q-Values [42.87920755961722]
Q$関数は多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレーディポリシーに従って振る舞う。
対数政治と値関数の和として、暗黙的に$Q$-関数をパラメータ化することを提案する。
我々は,大規模アクション空間に適した実用的な非政治的深部RLアルゴリズムを導出し,ポリシーと$Q$値とのソフトマックス関係を強制する。
論文 参考訳(メタデータ) (2021-08-16T12:20:47Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。