論文の概要: Augmented Lagrangian Method for Last-Iterate Convergence for Constrained MDPs
- arxiv url: http://arxiv.org/abs/2605.11694v1
- Date: Tue, 12 May 2026 07:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.678696
- Title: Augmented Lagrangian Method for Last-Iterate Convergence for Constrained MDPs
- Title(参考訳): 拘束型MDPにおけるLast-Iterate Convergenceのための拡張ラグランジアン法
- Authors: Michael Lu, Max Qiushi Lin, Mo Chen, Sharan Vaswani,
- Abstract要約: 無限水平・割引制約付きマルコフ決定過程(CMDP)の政策最適化について検討する。
制約付き最適化から古典的不正確な拡張ラグランジアン(textttAL$)法を用い,CMDPの最終的な収束性を示す汎用フレームワークを提案する。
ログ線形ポリシーを扱うためにこれらの結果を一般化し、より効率的な$textttPQA$の投影版が最終項目収束を実現することを実証する。
- 参考スコア(独自算出の注目度): 7.237620866644061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study policy optimization for infinite-horizon, discounted constrained Markov decision processes (CMDPs). While existing theoretical guarantees typically hold for the mixture policy, deploying such a policy is computationally and memory intensive. This leads to a practical mismatch where a single (last-iterate) policy must be deployed. Recent theoretical works have thus focused on proving last-iterate convergence, but are largely limited to the tabular setting or to algorithmic variants that are rarely used in practice. To address this, we use the classic inexact augmented Lagrangian ($\texttt{AL}$) method from constrained optimization, and propose a general framework with provable last-iterate convergence for CMDPs. We first focus on the tabular setting and propose to solve the $\texttt{AL}$ sub-problem with projected Q-ascent ($\texttt{PQA}$). Combining the theoretical guarantees of $\texttt{PQA}$ and the standard $\texttt{AL}$ analysis enables us to establish global last-iterate convergence. We generalize these results to handle log-linear policies, and demonstrate that an efficient, projected variant of $\texttt{PQA}$ can achieve last-iterate convergence with comparable guarantees as prior work. Finally, we demonstrate that our framework scales to complex non-linear policies, and evaluate it on continuous control tasks.
- Abstract(参考訳): 無限水平・割引制約付きマルコフ決定過程(CMDP)の政策最適化について検討した。
既存の理論上の保証は一般的に混合ポリシーに当てはまるが、そのようなポリシーの展開は計算的かつメモリ集約的である。
これにより、単一の(ラストイテレート)ポリシをデプロイしなければならないという、現実的なミスマッチが発生します。
近年の理論的研究は、最終点収束の証明に重点を置いているが、実際にはほとんど使われない表の設定やアルゴリズムの変種に限られている。
これを解決するために、制約付き最適化から古典的不正確な拡張ラグランジアン ("\texttt{AL}$) 法を使い、CMDPの証明可能な最終点収束を伴う一般的なフレームワークを提案する。
まず、表の設定に焦点をあて、予測Q-ascent$\texttt{PQA}$で$\texttt{AL}$ sub-problemを解くことを提案する。
理論的な保証である$\texttt{PQA}$と標準の$\texttt{AL}$ Analysisを組み合わせることで、世界最後の収束を確立することができる。
ログ線形ポリシーを扱うためにこれらの結果を一般化し、$\texttt{PQA}$の効率的で投影された変種が、前処理と同等の保証で最終項目収束を達成できることを実証する。
最後に、我々のフレームワークが複雑な非線形ポリシーにスケールし、継続的な制御タスクでそれを評価することを実証する。
関連論文リスト
- Revisiting Policy Gradients for Restricted Policy Classes: Escaping Myopic Local Optima with $k$-step Policy Gradients [8.64427265159929]
この研究は、制限されたポリシークラスで使用される標準ポリシー勾配メソッドを再考する。
一般化された$k$-stepポリシー勾配法を提案し,そのランダム性を$k$-step時間ウィンドウ内で結合する。
本手法は,最適決定性ポリシーに指数関数的に近い解に収束することが理論的に保証されていることを示す。
論文 参考訳(メタデータ) (2026-05-11T17:49:09Z) - Provably Efficient Sample Complexity for Robust CMDP [7.060086147428817]
安全制約を満たしつつ累積報酬を最大化する学習政策の問題点を考察する。
我々は,強固な制約付きマルコフ決定プロセス(RCMDPs)に焦点を当てる。そこではエージェントは,累積効用がしきい値を超えることを保証しながら報酬を最大化しなければならない。
本稿では,ロバスト制約値反復(RCVI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-10T04:40:37Z) - Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。
目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文 参考訳(メタデータ) (2025-07-06T14:40:05Z) - Mirror Descent Policy Optimisation for Robust Constrained Markov Decision Processes [12.666842349236788]
本稿では,ロバストなマルコフ決定過程に対するミラー降下ポリシーの最適化について述べる。
政策勾配法を用いて、ラグランジアン上のポリシー(最大値)と遷移カーネル(最小値)の両方を最適化する。
実験は、制約付きおよび制約なし最適化におけるミラー降下ポリシー最適化の利点を確認する。
論文 参考訳(メタデータ) (2025-06-29T09:55:52Z) - Rethinking the Global Convergence of Softmax Policy Gradient with Linear Function Approximation [52.772454746132276]
問題依存量のモデル化における近似誤差は,アルゴリズムのグローバル収束とは無関係であることを示す。
我々は,任意の定値学習率を持つ$textttLin-SPG$が,最適ポリシーへのグローバル収束を保証することを証明した。
論文 参考訳(メタデータ) (2025-05-06T04:03:06Z) - Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。
我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文 参考訳(メタデータ) (2025-02-16T08:05:46Z) - Low-Switching Policy Gradient with Exploration via Online Sensitivity
Sampling [23.989009116398208]
一般非線形関数近似を用いた低スイッチングサンプリング効率ポリシ最適化アルゴリズム LPO を設計する。
提案アルゴリズムは,$widetildeO(fractextpoly(d)varepsilon3)$サンプルのみを用いて,$varepsilon$-optimal Policyを得る。
論文 参考訳(メタデータ) (2023-06-15T23:51:46Z) - Fast Global Convergence of Policy Optimization for Constrained MDPs [17.825031573375725]
勾配法は最適性ギャップと制約違反の両方に対して$mathcalO(log(T)/T)$大域収束率が得られることを示す。
スレーターの条件が満たされ、事前条件が知られているとき、十分大きなT$に対してゼロ制約違反がさらに保証される。
論文 参考訳(メタデータ) (2021-10-31T17:46:26Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。