論文の概要: Regret Analysis of Unichain Average Reward Constrained MDPs with General Parameterization
- arxiv url: http://arxiv.org/abs/2602.08000v1
- Date: Sun, 08 Feb 2026 14:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.91755
- Title: Regret Analysis of Unichain Average Reward Constrained MDPs with General Parameterization
- Title(参考訳): 一般パラメータ化を用いた一鎖平均リワード制約MDPのレグレト解析
- Authors: Anirudh Satheesh, Vaneet Aggarwal,
- Abstract要約: 無限水平平均逆制約マルコフ決定過程 (CMDP) を一鎖の仮定と一般政策パラメーター化の下で検討する。
本研究では,マルチレベルモンテカルロ推定器と,混合時間オークルを必要とせず,一鎖動力学を扱う明示的なバーンイン機構を活用する。
- 参考スコア(独自算出の注目度): 47.72469270565647
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study infinite-horizon average-reward constrained Markov decision processes (CMDPs) under the unichain assumption and general policy parameterizations. Existing regret analyses for constrained reinforcement learning largely rely on ergodicity or strong mixing-time assumptions, which fail to hold in the presence of transient states. We propose a primal--dual natural actor--critic algorithm that leverages multi-level Monte Carlo (MLMC) estimators and an explicit burn-in mechanism to handle unichain dynamics without requiring mixing-time oracles. Our analysis establishes finite-time regret and cumulative constraint violation bounds that scale as $\tilde{O}(\sqrt{T})$, up to approximation errors arising from policy and critic parameterization, thereby extending order-optimal guarantees to a significantly broader class of CMDPs.
- Abstract(参考訳): 無限水平平均逆制約マルコフ決定過程 (CMDP) を一鎖の仮定と一般政策パラメーター化の下で検討する。
制約付き強化学習の既存の後悔分析は、過渡状態の存在を保たないエルゴード性や強い混合時間仮定に大きく依存している。
マルチレベルモンテカルロ(MLMC)推定器と,混合時間オラクルを必要とせずにユニチェーンダイナミクスを扱う明示的なバーンイン機構を活用する。
我々の分析は、ポリシーと批判パラメータ化から生じる近似誤差まで、$\tilde{O}(\sqrt{T})$としてスケールする有限時間後悔と累積的制約違反境界を確立し、命令最適保証をCMDPのより広範なクラスに拡張する。
関連論文リスト
- Optimal Sample Complexity for Single Time-Scale Actor-Critic with Momentum [62.691095807959215]
我々は,シングルタイムスケールアクター・クリティック(AC)アルゴリズムを用いて,$O(-2)$の最適なグローバルポリシを得るための最適なサンプル複雑性を確立する。
これらのメカニズムは、既存のディープラーニングアーキテクチャと互換性があり、実用的な適用性を損なうことなく、小さな修正しか必要としない。
論文 参考訳(メタデータ) (2026-02-02T00:35:42Z) - Regret Analysis of Average-Reward Unichain MDPs via an Actor-Critic Approach [46.80389197344682]
無限逆平均逆決定過程における$tildeO(sqrtT)$の順序最適後悔を伴う自然アクター批判を提案する。
NACBはアクターと批評家の両方に関数近似を用いており、大きな状態の潜在的周期性と行動空間への拡張を可能にしている。
論文 参考訳(メタデータ) (2025-05-26T13:43:02Z) - Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Learning [50.81240969750462]
我々は、ロバスト平均マルコフ決定過程(PMD)における政策評価の第1次有限サンプル解析を提案する。
頑健なベルマン作用素は、慎重に構築された半ノルムの下で収縮し、制御バイアスを持つフレームワークを開発することを示す。
本手法は,ロバストな政策評価とロバストな平均報酬推定のために,$tildemathcalO(epsilon-2)$のオーダー最適サンプル複雑性を実現する。
論文 参考訳(メタデータ) (2025-02-24T03:55:09Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。