論文の概要: The Role of Baselines in Policy Gradient Optimization
- arxiv url: http://arxiv.org/abs/2301.06276v1
- Date: Mon, 16 Jan 2023 06:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 16:25:48.277527
- Title: The Role of Baselines in Policy Gradient Optimization
- Title(参考訳): 政策勾配最適化におけるベースラインの役割
- Authors: Jincheng Mei and Wesley Chung and Valentin Thomas and Bo Dai and Csaba
Szepesvari and Dale Schuurmans
- Abstract要約: Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
- 参考スコア(独自算出の注目度): 83.42050606055822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the effect of baselines in on-policy stochastic policy gradient
optimization, and close the gap between the theory and practice of policy
optimization methods. Our first contribution is to show that the \emph{state
value} baseline allows on-policy stochastic \emph{natural} policy gradient
(NPG) to converge to a globally optimal policy at an $O(1/t)$ rate, which was
not previously known. The analysis relies on two novel findings: the expected
progress of the NPG update satisfies a stochastic version of the non-uniform
\L{}ojasiewicz (N\L{}) inequality, and with probability 1 the state value
baseline prevents the optimal action's probability from vanishing, thus
ensuring sufficient exploration. Importantly, these results provide a new
understanding of the role of baselines in stochastic policy gradient: by
showing that the variance of natural policy gradient estimates remains
unbounded with or without a baseline, we find that variance reduction
\emph{cannot} explain their utility in this setting. Instead, the analysis
reveals that the primary effect of the value baseline is to \textbf{reduce the
aggressiveness of the updates} rather than their variance. That is, we
demonstrate that a finite variance is \emph{not necessary} for almost sure
convergence of stochastic NPG, while controlling update aggressiveness is both
necessary and sufficient. Additional experimental results verify these
theoretical findings.
- Abstract(参考訳): オン・ポリシィ・確率的政策勾配最適化におけるベースラインの効果を考察し、政策最適化法の理論と実践のギャップを閉じる。
最初のコントリビューションは、 \emph{state value} ベースラインによって、オン・ポリティクスの確率的 \emph{natural} ポリシー勾配 (npg) が、以前知られていない$o(1/t)$レートでグローバルに最適なポリシーに収束できることを示すことです。
この分析は、2つの新しい発見に依存している: NPG 更新の予想された進歩は、非一様 \L{}ojasiewicz (N\L{})の不等式を確率1で満たし、状態値基底線は最適作用の確率が消えるのを防ぎ、十分な探索を保証する。
これらの結果は, 確率的政策勾配におけるベースラインの役割について, 新たな理解を与えている。 自然政策勾配推定のばらつきがベースラインの有無と無関係であることを示すことにより, 分散還元は, この設定においてその有用性を説明できることがわかった。
その代わり、分析によって、値のベースラインの主な効果は、その分散ではなく、 \textbf{reduce the aggressiveness of the updates}であることが明らかになった。
すなわち、確率的NPGのほぼ確実に収束するために有限分散が \emph{not required} であることを示し、更新攻撃性を制御することは必要かつ十分である。
さらなる実験結果は、これらの理論的な結果を検証する。
関連論文リスト
- Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration [39.250754806600135]
政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-31T20:23:52Z) - Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor
Critic under State Distribution Mismatch [29.02336004872336]
我々は、非政治アクター批評家アルゴリズムのグローバル最適性と収束率を確立する。
私たちの研究は、政策勾配法の最適性に関する既存の研究を超えています。
論文 参考訳(メタデータ) (2021-11-04T16:48:45Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy
Gradient Methods with Entropy Regularization [9.622367651590878]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。
エントロピー項によって導入された対数的ポリシー報酬により、推定子自身は一般に非有界であることが証明されるが、分散は一様有界である。
これにより、定常点と大域的最適ポリシーの両方に対するエントロピー正規化ポリシー勾配法の最初の収束結果の開発が可能となる。
論文 参考訳(メタデータ) (2021-10-19T17:21:09Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。