論文の概要: Elementary Analysis of Policy Gradient Methods
- arxiv url: http://arxiv.org/abs/2404.03372v2
- Date: Thu, 11 Apr 2024 02:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 18:06:21.933930
- Title: Elementary Analysis of Policy Gradient Methods
- Title(参考訳): 政策勾配法の基本解析
- Authors: Jiacai Liu, Wenye Li, Ke Wei,
- Abstract要約: 本稿では、割引MDPの設定に焦点をあて、前述の政策最適化手法の体系的研究を行う。
1)任意の一定のステップサイズに対する投影された方針勾配の大域的線形収束、2)任意の一定のステップサイズに対するソフトマックス方針勾配の大域的線形収束、3)任意の一定のステップサイズに対するソフトマックス自然政策勾配の大域的線形収束、4)既存の結果よりも広い一定のステップサイズに対するエントロピー正規化ソフトマックス方針勾配の大域的線形収束、5)エントロピー正規化自然政策勾配の厳密な局所的収束率、6)新しい局所的2次収束率。
- 参考スコア(独自算出の注目度): 3.468656086349638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Projected policy gradient under the simplex parameterization, policy gradient and natural policy gradient under the softmax parameterization, are fundamental algorithms in reinforcement learning. There have been a flurry of recent activities in studying these algorithms from the theoretical aspect. Despite this, their convergence behavior is still not fully understood, even given the access to exact policy evaluations. In this paper, we focus on the discounted MDP setting and conduct a systematic study of the aforementioned policy optimization methods. Several novel results are presented, including 1) global linear convergence of projected policy gradient for any constant step size, 2) sublinear convergence of softmax policy gradient for any constant step size, 3) global linear convergence of softmax natural policy gradient for any constant step size, 4) global linear convergence of entropy regularized softmax policy gradient for a wider range of constant step sizes than existing result, 5) tight local linear convergence rate of entropy regularized natural policy gradient, and 6) a new and concise local quadratic convergence rate of soft policy iteration without the assumption on the stationary distribution under the optimal policy. New and elementary analysis techniques have been developed to establish these results.
- Abstract(参考訳): 単純なパラメータ化, 方針勾配, およびソフトマックスパラメータ化の下での自然政策勾配の予測は, 強化学習の基本的なアルゴリズムである。
理論的な側面からこれらのアルゴリズムを研究する活動は、近年急増している。
それにもかかわらず、正確な政策評価にアクセスできたとしても、それらの収束挙動は未だ完全には理解されていない。
本稿では,割引MDPの設定に焦点をあて,前述の政策最適化手法の体系的研究を行う。
いくつかの新しい結果が提示され、その中には
1) 任意の一定のステップサイズに対する計画的方針勾配の大域的線形収束
2) 任意のステップサイズに対するソフトマックスポリシー勾配のサブ線形収束
3) 任意のステップサイズに対するソフトマックス自然方針勾配の大域的線形収束
4) エントロピー正則化ソフトマックス政策勾配の大域的線形収束は, 既存の結果よりも広い段差を持つ。
5) エントロピー規則化自然政策勾配の厳密な局所線形収束率、及び
6) 最適条件下での定常分布を仮定することなく, ソフトポリシー反復の局所的局所的2次収束率を推定した。
これらの結果を確立するため, 新たな基礎解析技術が開発されている。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Optimization Landscape of Policy Gradient Methods for Discrete-time
Static Output Feedback [22.21598324895312]
本稿では,静的な出力フィードバック制御に適用した場合に,ポリシー勾配法に固有の最適化環境を解析する。
3つの政策勾配法に対する定常点への収束(およびほぼ次元自由率)に関する新しい知見を導出する。
我々は,バニラポリシー勾配法が,そのようなミニマに近づいた場合,局所最小マに対して線形収束を示すことを示す。
論文 参考訳(メタデータ) (2023-10-29T14:25:57Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - A Policy Gradient Method for Confounded POMDPs [7.75007282943125]
オフライン環境下での連続状態と観測空間を持つ部分観測可能マルコフ決定過程(POMDP)の整合化のためのポリシー勾配法を提案する。
まず、オフラインデータを用いて、POMDPの履歴依存ポリシー勾配を非パラメトリックに推定するために、新しい識別結果を確立する。
論文 参考訳(メタデータ) (2023-05-26T16:48:05Z) - Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:17:52Z) - On the Convergence Rates of Policy Gradient Methods [9.74841674275568]
有限状態部分空間における幾何的に割引された支配問題を考える。
試料中の直交勾配のパラリゼーションにより、勾配の一般的な複雑さを解析できることが示される。
論文 参考訳(メタデータ) (2022-01-19T07:03:37Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - On Linear Convergence of Policy Gradient Methods for Finite MDPs [8.00114449574708]
最も簡単な設定の1つにおいて、ポリシー勾配法の有限時間解析を再検討する。
政策勾配法の多くの変種が大きなステップサイズで成功し、線形収束率を得ることを示す。
論文 参考訳(メタデータ) (2020-07-21T22:35:37Z) - Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。
我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。
この結果から, エントロピー正則化の役割を浮き彫りにした。
論文 参考訳(メタデータ) (2020-07-13T17:58:41Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。