論文の概要: Global Convergence of Average Reward Constrained MDPs with Neural Critic and General Policy Parameterization
- arxiv url: http://arxiv.org/abs/2603.07698v1
- Date: Sun, 08 Mar 2026 15:53:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.030078
- Title: Global Convergence of Average Reward Constrained MDPs with Neural Critic and General Policy Parameterization
- Title(参考訳): ニューラルネットワークと一般政策パラメーターを用いた平均逆数制約型MDPのグローバル収束性
- Authors: Anirudh Satheesh, Pankaj Kumar Barman, Washim Uddin Mondal, Vaneet Aggarwal,
- Abstract要約: 無限水平制約マルコフ決定過程(CMDP)について,一般政策パラメータ化と多層ニューラルネットワーク評論家を用いて検討する。
本稿では,ニューラル評論家推定と自然政策勾配の更新を統合した原始二重自然なアクター批判アルゴリズムを提案する。
我々は,政策や批判クラスによって引き起こされる近似誤差に対して,$tildemathcalO(T-1/4)$のグローバル収束および累積制約違反率を確立する。
- 参考スコア(独自算出の注目度): 44.90217052441265
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study infinite-horizon Constrained Markov Decision Processes (CMDPs) with general policy parameterizations and multi-layer neural network critics. Existing theoretical analyses for constrained reinforcement learning largely rely on tabular policies or linear critics, which limits their applicability to high-dimensional and continuous control problems. We propose a primal-dual natural actor-critic algorithm that integrates neural critic estimation with natural policy gradient updates and leverages Neural Tangent Kernel (NTK) theory to control function-approximation error under Markovian sampling, without requiring access to mixing-time oracles. We establish global convergence and cumulative constraint violation rates of $\tilde{\mathcal{O}}(T^-1/4)$ up to approximation errors induced by the policy and critic classes. Our results provide the first such guarantees for CMDPs with general policies and multi-layer neural critics, substantially extending the theoretical foundations of actor-critic methods beyond the linear-critic regime.
- Abstract(参考訳): 無限水平制約マルコフ決定過程(CMDP)について,一般政策パラメータ化と多層ニューラルネットワーク評論家を用いて検討する。
制約付き強化学習の理論解析は、高次元かつ連続的な制御問題に適用性を制限する表式ポリシーや線形批判に大きく依存している。
ニューラル・タンジェント・カーネル(NTK)理論を利用してマルコフサンプリングの下での関数近似誤差を制御する。
我々は、ポリシーや批判クラスによって引き起こされる近似誤差に対して、$\tilde{\mathcal{O}}(T^-1/4)$のグローバル収束および累積制約違反率を確立する。
以上の結果から,一般政策と多層神経評論家によるCMDPの保証が得られた。
関連論文リスト
- Regret Analysis of Unichain Average Reward Constrained MDPs with General Parameterization [47.72469270565647]
無限水平平均逆制約マルコフ決定過程 (CMDP) を一鎖の仮定と一般政策パラメーター化の下で検討する。
本研究では,マルチレベルモンテカルロ推定器と,混合時間オークルを必要とせず,一鎖動力学を扱う明示的なバーンイン機構を活用する。
論文 参考訳(メタデータ) (2026-02-08T14:54:02Z) - Neural Policy Iteration for Stochastic Optimal Control: A Physics-Informed Approach [2.8988658640181826]
物理インフォームドニューラルネットワークポリシー反復フレームワーク(PINN-PI)を提案する。
各イテレーションにおいて、ニューラルネットワークは、固定ポリシーによって誘導される線形PDEの残余を最小限にして、値関数を近似するように訓練される。
提案手法は,最大10次元の勾配カートポール,振り子高次元線形二次規則(LQR)問題など,いくつかのベンチマーク問題に対する有効性を示す。
論文 参考訳(メタデータ) (2025-08-03T11:02:25Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Learning General Parameterized Policies for Infinite Horizon Average Reward Constrained MDPs via Primal-Dual Policy Gradient Algorithm [34.593772931446125]
本稿では, 制約を適切に管理し, グローバルな最適政策の実現に向けて, 後悔の少ない保証を確実にする主元的二元的ポリシー勾配アルゴリズムを提案する。
提案アルゴリズムは, 目的的後悔に対して$tildemathcalO(T4/5) $tildemathcalO(T4/5)$ 制約違反境界を達成する。
論文 参考訳(メタデータ) (2024-02-03T05:35:58Z) - A Single-Loop Deep Actor-Critic Algorithm for Constrained Reinforcement Learning with Provable Convergence [7.586600116278698]
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)
論文 参考訳(メタデータ) (2023-06-10T10:04:54Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。