論文の概要: On the Global Convergence Rates of Softmax Policy Gradient Methods
- arxiv url: http://arxiv.org/abs/2005.06392v3
- Date: Thu, 2 Jun 2022 06:16:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 10:15:18.051212
- Title: On the Global Convergence Rates of Softmax Policy Gradient Methods
- Title(参考訳): ソフトマックス政策勾配法のグローバル収束率について
- Authors: Jincheng Mei, Chenjun Xiao, Csaba Szepesvari, Dale Schuurmans
- Abstract要約: 真の勾配では、ソフトマックスパラメトリゼーションによるポリシー勾配が$O(e-c cdot t)$レートで収束することを示す。
第2に,エントロピー規則化政策勾配を解析し,より高速な線形収束率を示す。
第3に、エントロピー正則化が真の勾配であっても、政策最適化をどのように改善するかを説明する。
- 参考スコア(独自算出の注目度): 45.1868906130788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We make three contributions toward better understanding policy gradient
methods in the tabular setting. First, we show that with the true gradient,
policy gradient with a softmax parametrization converges at a $O(1/t)$ rate,
with constants depending on the problem and initialization. This result
significantly expands the recent asymptotic convergence results. The analysis
relies on two findings: that the softmax policy gradient satisfies a
\L{}ojasiewicz inequality, and the minimum probability of an optimal action
during optimization can be bounded in terms of its initial value. Second, we
analyze entropy regularized policy gradient and show that it enjoys a
significantly faster linear convergence rate $O(e^{-c \cdot t})$ toward softmax
optimal policy $(c > 0)$. This result resolves an open question in the recent
literature. Finally, combining the above two results and additional new
$\Omega(1/t)$ lower bound results, we explain how entropy regularization
improves policy optimization, even with the true gradient, from the perspective
of convergence rate. The separation of rates is further explained using the
notion of non-uniform \L{}ojasiewicz degree. These results provide a
theoretical understanding of the impact of entropy and corroborate existing
empirical studies.
- Abstract(参考訳): 我々は,政策勾配法をよりよく理解するための3つの貢献を行う。
まず, 真の勾配では, ソフトマックスパラメトリゼーションを伴う政策勾配は, 問題や初期化に依存する定数とともに, $o(1/t)$レートで収束することを示す。
この結果は、最近の漸近収束結果を著しく拡大する。
この分析は、softmax のポリシー勾配が \l{}ojasiewiczの不等式を満たすこと、最適化中の最適動作の最小確率は初期値の観点で限定可能であること、という2つの知見に依存している。
第二に、エントロピー正規化ポリシー勾配を解析し、より高速な線形収束率$O(e^{-c \cdot t})$をソフトマックス最適ポリシー$(c > 0)$に楽しむことを示す。
この結果は最近の文献で明らかな疑問を解決している。
最後に、上記の2つの結果と新たな$\omega(1/t)$下限結果を組み合わせることで、エントロピー正規化が収束率の観点からも、真の勾配においてもポリシー最適化をどのように改善するかを説明する。
レートの分離は、非一様 \L{}ojasiewicz 次数の概念を用いてさらに説明される。
これらの結果はエントロピーの影響を理論的に理解し、既存の経験的研究を裏付ける。
関連論文リスト
- Methods for Convex $(L_0,L_1)$-Smooth Optimization: Clipping, Acceleration, and Adaptivity [50.25258834153574]
我々は、(強に)凸 $(L0)$-smooth 関数のクラスに焦点を当て、いくつかの既存のメソッドに対する新しい収束保証を導出する。
特に,スムーズなグラディエント・クリッピングを有するグラディエント・ディフレッシュと,ポリアク・ステップサイズを有するグラディエント・ディフレッシュのコンバージェンス・レートの改善を導出した。
論文 参考訳(メタデータ) (2024-09-23T13:11:37Z) - Differential Private Stochastic Optimization with Heavy-tailed Data: Towards Optimal Rates [15.27596975662702]
重み付き勾配を用いたDP最適化の最適速度を達成するアルゴリズムについて検討する。
その結果,DP下での凸最適化の理論的限界が達成可能であることを示す。
論文 参考訳(メタデータ) (2024-08-19T11:07:05Z) - Provable Policy Gradient Methods for Average-Reward Markov Potential
Games [15.136494705127564]
無限水平平均報酬基準の下でマルコフポテンシャルゲームを研究する。
我々は、独立政策勾配と独立自然政策勾配に基づくアルゴリズムが、平均報酬基準に対するナッシュ均衡にグローバルに収束することを証明した。
論文 参考訳(メタデータ) (2024-03-09T00:20:33Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Min-Max Optimization Made Simple: Approximating the Proximal Point
Method via Contraction Maps [77.8999425439444]
本稿では,凸/凹凸 min-max 問題に対して,ほぼ最適収束率を許容する一階法を提案する。
我々の研究は、近点法の更新規則を精度良く近似できるという事実に基づいている。
論文 参考訳(メタデータ) (2023-01-10T12:18:47Z) - Homotopic Policy Mirror Descent: Policy Convergence, Implicit
Regularization, and Improved Sample Complexity [40.2022466644885]
有限状態と作用空間を持つ割引・無限水平型MDPを解くホモトピーポリシーミラー降下法(HPMD)法。
政策勾配法に関する文献では, 新たな3つの特性が報告されている。
論文 参考訳(メタデータ) (2022-01-24T04:54:58Z) - A Two-Time-Scale Stochastic Optimization Framework with Applications in Control and Reinforcement Learning [13.908826484332282]
最適化問題の解法として,新しい2段階勾配法を提案する。
最初の貢献は、提案した2時間スケール勾配アルゴリズムの有限時間複雑性を特徴づけることである。
我々は、強化学習における勾配に基づく政策評価アルゴリズムに適用する。
論文 参考訳(メタデータ) (2021-09-29T23:15:23Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。