論文の概要: Softmax Policy Gradient Methods Can Take Exponential Time to Converge
- arxiv url: http://arxiv.org/abs/2102.11270v1
- Date: Mon, 22 Feb 2021 18:56:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 05:59:26.374815
- Title: Softmax Policy Gradient Methods Can Take Exponential Time to Converge
- Title(参考訳): ソフトマックス政策のグラディエント手法は収束に時間を要する
- Authors: Gen Li and Yuting Wei and Yuejie Chi and Yuantao Gu and Yuxin Chen
- Abstract要約: Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
- 参考スコア(独自算出の注目度): 60.98700344526674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The softmax policy gradient (PG) method, which performs gradient ascent under
softmax policy parameterization, is arguably one of the de facto
implementations of policy optimization in modern reinforcement learning. For
$\gamma$-discounted infinite-horizon tabular Markov decision processes (MDPs),
remarkable progress has recently been achieved towards establishing global
convergence of softmax PG methods in finding a near-optimal policy. However,
prior results fall short of delineating clear dependencies of convergence rates
on salient parameters such as the cardinality of the state space $\mathcal{S}$
and the effective horizon $\frac{1}{1-\gamma}$, both of which could be
excessively large. In this paper, we deliver a pessimistic message regarding
the iteration complexity of softmax PG methods, despite assuming access to
exact gradient computation. Specifically, we demonstrate that softmax PG
methods can take exponential time -- in terms of $|\mathcal{S}|$ and
$\frac{1}{1-\gamma}$ -- to converge, even in the presence of a benign policy
initialization and an initial state distribution amenable to exploration. This
is accomplished by characterizing the algorithmic dynamics over a
carefully-constructed MDP containing only three actions. Our exponential lower
bound hints at the necessity of carefully adjusting update rules or enforcing
proper regularization in accelerating PG methods.
- Abstract(参考訳): Softmax Policy gradient (PG)メソッドは、Softmax Policy parametersizationの下で勾配上昇を実行するが、現代の強化学習におけるポリシー最適化のデファクト実装の1つである。
また、$\gamma$-discounted infinite-horizon tabular Markov decision process (MDPs) では、近最適政策の発見において Softmax PG メソッドのグローバル収束の確立に向けた目覚ましい進歩が最近達成されている。
しかし、事前の結果は、状態空間 $\mathcal{S}$ の濃度や有効地平線 $\frac{1}{1-\gamma}$ のような正則なパラメータに対する収束率の明確な依存関係を導出できない。
本稿では,厳密な勾配計算を前提としながら,ソフトマックスPG法の繰り返し複雑性に関する悲観的なメッセージを提供する。
具体的には、良性ポリシー初期化や探索可能な初期状態分布の存在下においても、軟マックスPG法が指数時間($|\mathcal{S}|$と$\frac{1}{1-\gamma}$)を収束させることを実証する。
これは、3つのアクションのみを含む慎重に構成されたMDP上でアルゴリズム力学を特徴付けることで達成される。
当社の指数的な下限のヒントは、更新ルールを慎重に調整したり、PGメソッドを加速するために適切な正規化を強制する必要性です。
関連論文リスト
- Structure Matters: Dynamic Policy Gradient [1.747623282473278]
動的ポリシー勾配(DynPG)というフレームワークを導入する。
DynPGは動的プログラミングと(あらゆる)ポリシー勾配法を直接統合する。
その結果,バニラ政策勾配に対する最近の下限例と対比した。
論文 参考訳(メタデータ) (2024-11-07T17:51:55Z) - Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form [26.01796404477275]
本稿では,頑健な制約付きMDP(RCMDP)における準最適ポリシーを同定できる最初のアルゴリズムを提案する。
最適ポリシーは、一連の環境における最悪のシナリオにおける制約を満たしながら累積コストを最小化する。
論文 参考訳(メタデータ) (2024-08-29T06:37:16Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs [44.69257217086967]
制約付きマルコフ決定プロセス(CMDP)フレームワークは、安全性や他の重要な目的を課すための重要な強化学習アプローチとして出現する。
本稿では,線形関数近似が$q_pi$-realizabilityで与えられる学習問題に対処する。
論文 参考訳(メタデータ) (2024-06-26T17:57:13Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:17:52Z) - Homotopic Policy Mirror Descent: Policy Convergence, Implicit
Regularization, and Improved Sample Complexity [40.2022466644885]
有限状態と作用空間を持つ割引・無限水平型MDPを解くホモトピーポリシーミラー降下法(HPMD)法。
政策勾配法に関する文献では, 新たな3つの特性が報告されている。
論文 参考訳(メタデータ) (2022-01-24T04:54:58Z) - Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。
我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。
この結果から, エントロピー正則化の役割を浮き彫りにした。
論文 参考訳(メタデータ) (2020-07-13T17:58:41Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。