論文の概要: The Role of Baselines in Policy Gradient Optimization
- arxiv url: http://arxiv.org/abs/2301.06276v1
- Date: Mon, 16 Jan 2023 06:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 16:25:48.277527
- Title: The Role of Baselines in Policy Gradient Optimization
- Title(参考訳): 政策勾配最適化におけるベースラインの役割
- Authors: Jincheng Mei and Wesley Chung and Valentin Thomas and Bo Dai and Csaba
Szepesvari and Dale Schuurmans
- Abstract要約: Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
- 参考スコア(独自算出の注目度): 83.42050606055822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the effect of baselines in on-policy stochastic policy gradient
optimization, and close the gap between the theory and practice of policy
optimization methods. Our first contribution is to show that the \emph{state
value} baseline allows on-policy stochastic \emph{natural} policy gradient
(NPG) to converge to a globally optimal policy at an $O(1/t)$ rate, which was
not previously known. The analysis relies on two novel findings: the expected
progress of the NPG update satisfies a stochastic version of the non-uniform
\L{}ojasiewicz (N\L{}) inequality, and with probability 1 the state value
baseline prevents the optimal action's probability from vanishing, thus
ensuring sufficient exploration. Importantly, these results provide a new
understanding of the role of baselines in stochastic policy gradient: by
showing that the variance of natural policy gradient estimates remains
unbounded with or without a baseline, we find that variance reduction
\emph{cannot} explain their utility in this setting. Instead, the analysis
reveals that the primary effect of the value baseline is to \textbf{reduce the
aggressiveness of the updates} rather than their variance. That is, we
demonstrate that a finite variance is \emph{not necessary} for almost sure
convergence of stochastic NPG, while controlling update aggressiveness is both
necessary and sufficient. Additional experimental results verify these
theoretical findings.
- Abstract(参考訳): オン・ポリシィ・確率的政策勾配最適化におけるベースラインの効果を考察し、政策最適化法の理論と実践のギャップを閉じる。
最初のコントリビューションは、 \emph{state value} ベースラインによって、オン・ポリティクスの確率的 \emph{natural} ポリシー勾配 (npg) が、以前知られていない$o(1/t)$レートでグローバルに最適なポリシーに収束できることを示すことです。
この分析は、2つの新しい発見に依存している: NPG 更新の予想された進歩は、非一様 \L{}ojasiewicz (N\L{})の不等式を確率1で満たし、状態値基底線は最適作用の確率が消えるのを防ぎ、十分な探索を保証する。
これらの結果は, 確率的政策勾配におけるベースラインの役割について, 新たな理解を与えている。 自然政策勾配推定のばらつきがベースラインの有無と無関係であることを示すことにより, 分散還元は, この設定においてその有用性を説明できることがわかった。
その代わり、分析によって、値のベースラインの主な効果は、その分散ではなく、 \textbf{reduce the aggressiveness of the updates}であることが明らかになった。
すなわち、確率的NPGのほぼ確実に収束するために有限分散が \emph{not required} であることを示し、更新攻撃性を制御することは必要かつ十分である。
さらなる実験結果は、これらの理論的な結果を検証する。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Optimization Landscape of Policy Gradient Methods for Discrete-time
Static Output Feedback [22.21598324895312]
本稿では,静的な出力フィードバック制御に適用した場合に,ポリシー勾配法に固有の最適化環境を解析する。
3つの政策勾配法に対する定常点への収束(およびほぼ次元自由率)に関する新しい知見を導出する。
我々は,バニラポリシー勾配法が,そのようなミニマに近づいた場合,局所最小マに対して線形収束を示すことを示す。
論文 参考訳(メタデータ) (2023-10-29T14:25:57Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration [39.250754806600135]
政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-31T20:23:52Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。