論文の概要: Global Convergence for Average Reward Constrained MDPs with Primal-Dual Actor Critic Algorithm
- arxiv url: http://arxiv.org/abs/2505.15138v1
- Date: Wed, 21 May 2025 05:49:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.914902
- Title: Global Convergence for Average Reward Constrained MDPs with Primal-Dual Actor Critic Algorithm
- Title(参考訳): 最小次元アクター批判アルゴリズムを用いた平均逆制限型MDPの大域的収束
- Authors: Yang Xu, Swetha Ganesh, Washim Uddin Mondal, Qinbo Bai, Vaneet Aggarwal,
- Abstract要約: 本研究では,高収束率を確保しつつ制約を適切に管理するPrimal-Dual Natural Actor-Criticアルゴリズムを提案する。
この結果はマルコフ決定過程の理論的下限と一致し、平均報酬CMDPの理論的探索において新しいベンチマークを確立する。
- 参考スコア(独自算出の注目度): 31.539921770584005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates infinite-horizon average reward Constrained Markov Decision Processes (CMDPs) with general parametrization. We propose a Primal-Dual Natural Actor-Critic algorithm that adeptly manages constraints while ensuring a high convergence rate. In particular, our algorithm achieves global convergence and constraint violation rates of $\tilde{\mathcal{O}}(1/\sqrt{T})$ over a horizon of length $T$ when the mixing time, $\tau_{\mathrm{mix}}$, is known to the learner. In absence of knowledge of $\tau_{\mathrm{mix}}$, the achievable rates change to $\tilde{\mathcal{O}}(1/T^{0.5-\epsilon})$ provided that $T \geq \tilde{\mathcal{O}}\left(\tau_{\mathrm{mix}}^{2/\epsilon}\right)$. Our results match the theoretical lower bound for Markov Decision Processes and establish a new benchmark in the theoretical exploration of average reward CMDPs.
- Abstract(参考訳): 本稿では,一般パラメトリゼーションによる無限水平平均報酬制約マルコフ決定過程(CMDP)について検討する。
本研究では,高収束率を確保しつつ制約を適切に管理するPrimal-Dual Natural Actor-Criticアルゴリズムを提案する。
特に, 混合時間である$\tau_{\mathrm{mix}}$が学習者に知られている場合, 長さの水平線上の$\tilde{\mathcal{O}}(1/\sqrt{T})$のグローバル収束および制約違反率を達成する。
$\tau_{\mathrm{mix}}$ の知識がなければ、達成可能なレートは $\tilde{\mathcal{O}}(1/T^{0.5-\epsilon})$ に変更され、$T \geq \tilde{\mathcal{O}}\left(\tau_{\mathrm{mix}}^{2/\epsilon}\right)$ となる。
この結果はマルコフ決定過程の理論的下限と一致し、平均報酬CMDPの理論的探索において新しいベンチマークを確立する。
関連論文リスト
- Last-Iterate Convergence of General Parameterized Policies in Constrained MDPs [35.22742439337603]
Proposed Primal-Dual based Regularized Accelerated Natural Policy Gradient (PDR-ANPG) algorithm using entropy and quadratic regularizers to reach this goal。
PDR-ANPGは、パラメータ化されたポリシークラスに変換互換性の近似誤差を持たせるため、最終値の$epsilon$Optimity gapを達成できる。
これは、汎用パラメータ化CMDPの最先端最終保証の大幅な改善である。
論文 参考訳(メタデータ) (2024-08-21T10:44:57Z) - A Sharper Global Convergence Analysis for Average Reward Reinforcement Learning via an Actor-Critic Approach [31.343919501963416]
本研究は,一般政策パラメトリゼーションによる平均回帰強化学習について検討する。
マルチレベルモンテカルロをベースとしたNatural Actor-Critic (MLMC-NAC)アルゴリズムを提案する。
我々の研究は、平均回帰マルコフ決定過程に対して$tildemathcalO (1/sqrtT)$のグローバル収束率を達成した最初のものである。
論文 参考訳(メタデータ) (2024-07-26T17:16:31Z) - Order-Optimal Regret with Novel Policy Gradient Approaches in Infinite-Horizon Average Reward MDPs [31.343919501963416]
無限水平平均報酬マルコフ決定過程(MDP)の文脈における一般パラメトリゼーションを用いた2つのポリシー勾配に基づくアルゴリズムを提案する。
1つはインプリシット・グラディエント・トランスポート(Implicit Gradient Transport)で分散還元を行い、$tildemathcalO(T2/3)$に対する期待された後悔を確実にする。
第2のアプローチは、ヘッセンの手法をルーツとするもので、$tildemathcalO(sqrtT)$を期待された後悔を保証する。
論文 参考訳(メタデータ) (2024-04-02T17:08:23Z) - Optimal Sample Complexity for Average Reward Markov Decision Processes [1.0445957451908694]
平均報酬 MDP の最適ポリシを$widetilde O(|S||A|t_textmix2 epsilon-2)$で推定する。
これは文学の下位境界に到達した最初のアルゴリズムと分析である。
論文 参考訳(メタデータ) (2023-10-13T03:08:59Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Perseus: A Simple and Optimal High-Order Method for Variational
Inequalities [81.32967242727152]
VI は、$langle F(x), x - xstarrangle geq 0$ for all $x in MathcalX$ であるように、mathcalX$ で $xstar を見つける。
そこで本稿では,テキストitが行探索を必要とせず,$O(epsilon-2/(p+1))$で弱解に確実に収束する$pth$-order法を提案する。
論文 参考訳(メタデータ) (2022-05-06T13:29:14Z) - The Curse of Passive Data Collection in Batch Reinforcement Learning [82.6026077420886]
高い利害関係のアプリケーションでは、アクティブな実験は危険すぎると考えられ、データはしばしば受動的に収集される。
バンディットやパッシブ、アクティブなデータ収集などの単純な場合も同様に効果的であるが、制御された状態のシステムからデータを集める場合、パッシブサンプリングの価格ははるかに高い。
論文 参考訳(メタデータ) (2021-06-18T07:54:23Z) - Model-Free Reinforcement Learning: from Clipped Pseudo-Regret to Sample
Complexity [59.34067736545355]
S$状態、$A$アクション、割引係数$gamma in (0,1)$、近似しきい値$epsilon > 0$の MDP が与えられた場合、$epsilon$-Optimal Policy を学ぶためのモデルなしアルゴリズムを提供する。
十分小さな$epsilon$の場合、サンプルの複雑さで改良されたアルゴリズムを示す。
論文 参考訳(メタデータ) (2020-06-06T13:34:41Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。