論文の概要: Convergence and Optimality of Policy Gradient Methods in Weakly Smooth
Settings
- arxiv url: http://arxiv.org/abs/2111.00185v1
- Date: Sat, 30 Oct 2021 06:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 10:12:03.010286
- Title: Convergence and Optimality of Policy Gradient Methods in Weakly Smooth
Settings
- Title(参考訳): 弱スムーズ設定における政策勾配法の収束性と最適性
- Authors: Matthew Shunshi Zhang, Murat Erdogdu, Animesh Garg
- Abstract要約: 我々は不透明な条件に頼らずに政策勾配法の明確な収束率を確立する。
また, ニアリニアMDPのエルゴディディディティに対する十分条件を特徴付ける。
収束政策の最適性に関する条件と分析を提供する。
- 参考スコア(独自算出の注目度): 17.437408088239142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy gradient methods have been frequently applied to problems in control
and reinforcement learning with great success, yet existing convergence
analysis still relies on non-intuitive, impractical and often opaque
conditions. In particular, existing rates are achieved in limited settings,
under strict smoothness and bounded conditions. In this work, we establish
explicit convergence rates of policy gradient methods without relying on these
conditions, instead extending the convergence regime to weakly smooth policy
classes with $L_2$ integrable gradient. We provide intuitive examples to
illustrate the insight behind these new conditions. We also characterize the
sufficiency conditions for the ergodicity of near-linear MDPs, which represent
an important class of problems. Notably, our analysis also shows that fast
convergence rates are achievable for both the standard policy gradient and the
natural policy gradient algorithms under these assumptions. Lastly we provide
conditions and analysis for optimality of the converged policies.
- Abstract(参考訳): 政策勾配法は制御と強化学習の問題にしばしば適用されてきたが、既存の収束解析は直観的でない非現実的で不透明な条件に依存している。
特に、既存のレートは厳密な滑らかさと有界条件の下で限られた設定で達成される。
本研究では、これらの条件に頼らずにポリシー勾配法の明示的な収束率を確立し、代わりに$L_2$可積分勾配を持つ弱滑らかな政策クラスに収束状態を拡張する。
これらの新しい条件の背後にある洞察を説明する直感的な例を示す。
また,問題の重要なクラスであるニアリニアmdpのエルゴード性に対する十分条件を特徴付ける。
特に,本分析は,これらの仮定の下での標準方針勾配アルゴリズムと自然政策勾配アルゴリズムの両方に対して,高速収束速度が達成可能であることを示す。
最後に、収束ポリシーの最適性に関する条件と分析を提供する。
関連論文リスト
- Strongly-polynomial time and validation analysis of policy gradient methods [3.722665817361884]
本稿では,有限状態および行動マルコフ決定過程(MDP)と強化学習(RL)のための,優位ギャップ関数と呼ばれる新しい終了基準を提案する。
この利点ギャップ関数をステップサイズルールの設計に組み込むことで、最適ポリシーの定常状態分布に依存しない新しい線形収束率を導出する。
政策勾配法に対してそのような強い収束特性が確立されたのはこれが初めてである。
論文 参考訳(メタデータ) (2024-09-28T18:56:48Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Elementary Analysis of Policy Gradient Methods [3.468656086349638]
本稿では、割引MDPの設定に焦点をあて、前述の政策最適化手法の体系的研究を行う。
1)任意の一定のステップサイズに対する投影された方針勾配の大域的線形収束、2)任意の一定のステップサイズに対するソフトマックス方針勾配の大域的線形収束、3)任意の一定のステップサイズに対するソフトマックス自然政策勾配の大域的線形収束、4)既存の結果よりも広い一定のステップサイズに対するエントロピー正規化ソフトマックス方針勾配の大域的線形収束、5)エントロピー正規化自然政策勾配の厳密な局所的収束率、6)新しい局所的2次収束率。
論文 参考訳(メタデータ) (2024-04-04T11:16:16Z) - Optimization Landscape of Policy Gradient Methods for Discrete-time
Static Output Feedback [22.21598324895312]
本稿では,静的な出力フィードバック制御に適用した場合に,ポリシー勾配法に固有の最適化環境を解析する。
3つの政策勾配法に対する定常点への収束(およびほぼ次元自由率)に関する新しい知見を導出する。
我々は,バニラポリシー勾配法が,そのようなミニマに近づいた場合,局所最小マに対して線形収束を示すことを示す。
論文 参考訳(メタデータ) (2023-10-29T14:25:57Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:17:52Z) - On the Convergence Rates of Policy Gradient Methods [9.74841674275568]
有限状態部分空間における幾何的に割引された支配問題を考える。
試料中の直交勾配のパラリゼーションにより、勾配の一般的な複雑さを解析できることが示される。
論文 参考訳(メタデータ) (2022-01-19T07:03:37Z) - On Linear Convergence of Policy Gradient Methods for Finite MDPs [8.00114449574708]
最も簡単な設定の1つにおいて、ポリシー勾配法の有限時間解析を再検討する。
政策勾配法の多くの変種が大きなステップサイズで成功し、線形収束率を得ることを示す。
論文 参考訳(メタデータ) (2020-07-21T22:35:37Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - Complexity Guarantees for Polyak Steps with Momentum [76.97851351276165]
そこでは,この知識を最適な値である$f_*$で置き換える。
まず、Polyak ステップによる単純な勾配勾配の古典的な場合よりも若干改善された収束境界を示し、その後、収束保証とともに、Polyak ステップと運動量を持つ加速勾配法を導出する。
論文 参考訳(メタデータ) (2020-02-03T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。