論文の概要: Convergence and sample complexity of natural policy gradient primal-dual
methods for constrained MDPs
- arxiv url: http://arxiv.org/abs/2206.02346v2
- Date: Tue, 17 Oct 2023 04:02:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 00:41:35.771557
- Title: Convergence and sample complexity of natural policy gradient primal-dual
methods for constrained MDPs
- Title(参考訳): 制約付きMDPに対する自然政策勾配原始双対法の収束とサンプル複雑性
- Authors: Dongsheng Ding, Kaiqing Zhang, Jiali Duan, Tamer Ba\c{s}ar, Mihailo R.
Jovanovi\'c
- Abstract要約: 我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。
また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
- 参考スコア(独自算出の注目度): 24.582720609592464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study sequential decision making problems aimed at maximizing the expected
total reward while satisfying a constraint on the expected total utility. We
employ the natural policy gradient method to solve the discounted
infinite-horizon optimal control problem for Constrained Markov Decision
Processes (constrained MDPs). Specifically, we propose a new Natural Policy
Gradient Primal-Dual (NPG-PD) method that updates the primal variable via
natural policy gradient ascent and the dual variable via projected sub-gradient
descent. Although the underlying maximization involves a nonconcave objective
function and a nonconvex constraint set, under the softmax policy
parametrization we prove that our method achieves global convergence with
sublinear rates regarding both the optimality gap and the constraint violation.
Such convergence is independent of the size of the state-action space, i.e., it
is~dimension-free. Furthermore, for log-linear and general smooth policy
parametrizations, we establish sublinear convergence rates up to a function
approximation error caused by restricted policy parametrization. We also
provide convergence and finite-sample complexity guarantees for two
sample-based NPG-PD algorithms. Finally, we use computational experiments to
showcase the merits and the effectiveness of our approach.
- Abstract(参考訳): 本研究では,期待総利益を最大化しつつ,期待総益の制約を満たしながら意思決定問題を検討する。
制約付きマルコフ決定過程(制約付きmdp)に対する無限ホリゾン最適制御問題の解法として,自然政策勾配法を用いる。
具体的には,本手法では,自然ポリシー勾配の上昇による主変数の更新と,投射された下位段階の降下による双対変数の更新を行う。
基本となる最大化は、非凸目的関数と非凸制約集合を含むが、softmaxポリシーパラメトリゼーションの下では、最適性ギャップと制約違反の両方に関して、サブリニアレートで大域収束を達成することが証明される。
そのような収束は状態-作用空間の大きさとは独立、すなわち-次元-自由である。
さらに,対数線形および一般平滑な政策パラメータ化に対しては,制限された政策パラメータ化による関数近似誤差までの部分線形収束率を定式化する。
また、2つのサンプルベースNPG-PDアルゴリズムに対して収束および有限サンプル複雑性を保証する。
最後に,計算実験を用いて,提案手法の有効性と有効性を示す。
関連論文リスト
- Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:17:52Z) - On the Convergence Rates of Policy Gradient Methods [9.74841674275568]
有限状態部分空間における幾何的に割引された支配問題を考える。
試料中の直交勾配のパラリゼーションにより、勾配の一般的な複雑さを解析できることが示される。
論文 参考訳(メタデータ) (2022-01-19T07:03:37Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization [20.651913793555163]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。
提案したアルゴリズムに対して,大域的最適収束結果と$widetildemathcalO(frac1epsilon2)$のサンプル複雑性を確立する。
論文 参考訳(メタデータ) (2021-10-19T17:21:09Z) - Conditional gradient methods for stochastically constrained convex
minimization [54.53786593679331]
構造凸最適化問題に対する条件勾配に基づく2つの新しい解法を提案する。
私たちのフレームワークの最も重要な特徴は、各イテレーションで制約のサブセットだけが処理されることです。
提案アルゴリズムは, 条件勾配のステップとともに, 分散の低減と平滑化に頼り, 厳密な収束保証を伴っている。
論文 参考訳(メタデータ) (2020-07-07T21:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。