論文の概要: Near-Constant Strong Violation and Last-Iterate Convergence for Online CMDPs via Decaying Safety Margins
- arxiv url: http://arxiv.org/abs/2602.10917v1
- Date: Wed, 11 Feb 2026 14:54:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.030508
- Title: Near-Constant Strong Violation and Last-Iterate Convergence for Online CMDPs via Decaying Safety Margins
- Title(参考訳): 安全マージンの減少によるオンラインCMDPの準定常強換気と最終Iterate Convergence
- Authors: Qian Zuo, Zhiyong Wang, Fengxiang He,
- Abstract要約: 制約付きマルコフ決定過程(CMDP)における安全なオンライン強化学習を,強い後悔と違反の指標の下で研究する。
サブリニアの強い報酬を後悔させる既存の原始二重法は、強い制約違反の増大を招いたり、あるいは固有振動による平均点収束に制限されたりしている。
本稿では,マルチ正規化探索(FlexDOME)アルゴリズムによるフレキシブルセーフティドメイン最適化を提案する。
- 参考スコア(独自算出の注目度): 31.581870065866568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study safe online reinforcement learning in Constrained Markov Decision Processes (CMDPs) under strong regret and violation metrics, which forbid error cancellation over time. Existing primal-dual methods that achieve sublinear strong reward regret inevitably incur growing strong constraint violation or are restricted to average-iterate convergence due to inherent oscillations. To address these limitations, we propose the Flexible safety Domain Optimization via Margin-regularized Exploration (FlexDOME) algorithm, the first to provably achieve near-constant $\tilde{O}(1)$ strong constraint violation alongside sublinear strong regret and non-asymptotic last-iterate convergence. FlexDOME incorporates time-varying safety margins and regularization terms into the primal-dual framework. Our theoretical analysis relies on a novel term-wise asymptotic dominance strategy, where the safety margin is rigorously scheduled to asymptotically majorize the functional decay rates of the optimization and statistical errors, thereby clamping cumulative violations to a near-constant level. Furthermore, we establish non-asymptotic last-iterate convergence guarantees via a policy-dual Lyapunov argument. Experiments corroborate our theoretical findings.
- Abstract(参考訳): 制約付きマルコフ決定過程(CMDP)における安全なオンライン強化学習を、強い後悔と違反の指標の下で研究し、時間とともにエラーのキャンセルを禁止した。
必然的に増大する強い制約違反を生じさせるようなサブリニアな強い報酬を後悔させる既存の原始的双対法は、固有の振動による平均的利益収束に制限される。
これらの制約に対処するため、我々はFlexDOMEアルゴリズムによるフレキシブル・セーフティ・ドメイン・最適化を提案する。
FlexDOMEは、時間によって異なる安全マージンと規則化条件をプリミティブ・デュアル・フレームワークに組み込んでいる。
我々の理論的分析は、新しい長期的漸近的支配戦略に依存しており、安全マージンは、最適化と統計的誤差の関数的崩壊率を漸近的に大きくし、したがって累積的違反をほぼ一定レベルに抑えるように厳格に計画されている。
さらに、政策双対のリャプノフの議論を通じて、漸近的でない最終点収束を保証する。
実験は理論的な結果を裏付けるものだ。
関連論文リスト
- Accelerated Gradient Methods with Biased Gradient Estimates: Risk Sensitivity, High-Probability Guarantees, and Large Deviation Bounds [12.025550076793396]
本研究では,収束率と強靭性への勾配のトレードオフについて,一階法の文脈で検討する。
潜在的なバイアス付き準ガウス勾配誤差の下では、リスク・センシティブ・インデックス(RSI)の有限時間アナログ上の非漸近境界を導出する。
滑らかな凸関数の場合、RSIと収束率境界との間の類似のトレードオフも観察する。
論文 参考訳(メタデータ) (2025-09-17T01:56:31Z) - Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Policy-based Primal-Dual Methods for Concave CMDP with Variance Reduction [18.95829896746939]
目的と制約の両方を状態行動占有度尺度の凹凸関数として定義したコンケーブCMDPについて検討する。
本稿では, 基本変数をポリシー勾配の上昇により更新し, 二次変数を予測下次降下により更新する, 可変生成プライマル・デュアルポリシー勾配を提案する。
論文 参考訳(メタデータ) (2022-05-22T02:50:16Z) - Fast Global Convergence of Policy Optimization for Constrained MDPs [17.825031573375725]
勾配法は最適性ギャップと制約違反の両方に対して$mathcalO(log(T)/T)$大域収束率が得られることを示す。
スレーターの条件が満たされ、事前条件が知られているとき、十分大きなT$に対してゼロ制約違反がさらに保証される。
論文 参考訳(メタデータ) (2021-10-31T17:46:26Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。