論文の概要: A general sample complexity analysis of vanilla policy gradient
- arxiv url: http://arxiv.org/abs/2107.11433v1
- Date: Fri, 23 Jul 2021 19:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 16:15:26.491872
- Title: A general sample complexity analysis of vanilla policy gradient
- Title(参考訳): バニラ政策勾配の一般的なサンプル複雑性解析
- Authors: Rui Yuan, Robert M. Gower, Alessandro Lazaric
- Abstract要約: 政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
- 参考スコア(独自算出の注目度): 101.16957584135767
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The policy gradient (PG) is one of the most popular methods for solving
reinforcement learning (RL) problems. However, a solid theoretical
understanding of even the "vanilla" PG has remained elusive for long time. In
this paper, we apply recent tools developed for the analysis of SGD in
non-convex optimization to obtain convergence guarantees for both REINFORCE and
GPOMDP under smoothness assumption on the objective function and weak
conditions on the second moment of the norm of the estimated gradient. When
instantiated under common assumptions on the policy space, our general result
immediately recovers existing $\widetilde{\mathcal{O}}(\epsilon^{-4})$ sample
complexity guarantees, but for wider ranges of parameters (e.g., step size and
batch size $m$) with respect to previous literature. Notably, our result
includes the single trajectory case (i.e., $m=1$) and it provides a more
accurate analysis of the dependency on problem-specific parameters by fixing
previous results available in the literature. We believe that the integration
of state-of-the-art tools from non-convex optimization may lead to identify a
much broader range of problems where PG methods enjoy strong theoretical
guarantees.
- Abstract(参考訳): 政策勾配(PG)は強化学習(RL)問題を解く最も一般的な方法の1つである。
しかしながら、"バニラ" PG さえもしっかりとした理論的理解は長い間解明され続けている。
本稿では、非凸最適化におけるSGD解析のために開発された最近のツールを適用し、推定勾配のノルムの第2モーメントにおける目的関数と弱条件の滑らか性仮定の下で、REINFORCEとGPOMDPの収束保証を得る。
ポリシー空間の一般的な仮定の下でインスタンス化されると、我々の一般的な結果は、既存の$\widetilde{\mathcal{O}}(\epsilon^{-4})$サンプルの複雑さを保証するが、以前の文献では幅広いパラメータ(例えば、ステップサイズとバッチサイズ$m$)に対して直ちに回復する。
特に、この結果には単一の軌道の場合(例えば$m=1$)が含まれており、文献で利用可能な以前の結果を修正することで、問題固有のパラメータへの依存性をより正確に分析することができる。
非凸最適化による最先端ツールの統合は、pg法が強い理論的保証を享受するより広い範囲の問題を特定できると信じている。
関連論文リスト
- Empirical Risk Minimization with Shuffled SGD: A Primal-Dual Perspective
and Improved Bounds [12.699376765058137]
勾配降下法(SGD)は、おそらく現代の機械学習において最も一般的な最適化法である。
SGDを交換せずにサンプリングするSGDが分析されたのはごく最近のことだ。
データマトリックスに依存し、既存の境界によって予測されるものよりも決して悪くない、きめ細かい複雑性境界を証明します。
論文 参考訳(メタデータ) (2023-06-21T18:14:44Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Asymptotically Unbiased Instance-wise Regularized Partial AUC
Optimization: Theory and Algorithm [101.44676036551537]
One-way partial AUC (OPAUC) と Two-way partial AUC (TPAUC) はバイナリ分類器の平均性能を測定する。
既存の手法のほとんどはPAUCをほぼ最適化するしかなく、制御不能なバイアスにつながる。
本稿では,分散ロバスト最適化AUCによるPAUC問題の簡易化について述べる。
論文 参考訳(メタデータ) (2022-10-08T08:26:22Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - Globally Convergent Policy Search over Dynamic Filters for Output
Estimation [64.90951294952094]
我々は,大域的に最適な$textitdynamic$ filterに収束する最初の直接ポリシー探索アルゴリズム凸を導入する。
我々は、情報化が前述の優越性を克服していることを示す。
論文 参考訳(メタデータ) (2022-02-23T18:06:20Z) - Gaussian Process Inference Using Mini-batch Stochastic Gradient Descent:
Convergence Guarantees and Empirical Benefits [21.353189917487512]
勾配降下(SGD)とその変種は、機械学習問題のアルゴリズムとして確立されている。
我々は、最小バッチSGDが全ログ類似損失関数の臨界点に収束することを証明して一歩前進する。
我々の理論的な保証は、核関数が指数的あるいは固有デカイを示すことを前提としている。
論文 参考訳(メタデータ) (2021-11-19T22:28:47Z) - Variational Policy Gradient Method for Reinforcement Learning with
General Utilities [38.54243339632217]
近年,累積報酬の合計を超える総合目標を持つ強化学習システムが注目を集めている。
本稿では,一般的な凹凸ユーティリティ関数を対象とする決定問題におけるポリシーについて考察する。
汎用性を持つRLの新しい変分ポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2020-07-04T17:51:53Z) - On the Convergence Rate of Projected Gradient Descent for a
Back-Projection based Objective [58.33065918353532]
我々は、最小二乗(LS)の代替として、バックプロジェクションに基づく忠実度項を考える。
LS項ではなくBP項を用いることで最適化アルゴリズムの繰り返しを少なくすることを示す。
論文 参考訳(メタデータ) (2020-05-03T00:58:23Z) - Better Theory for SGD in the Nonconvex World [2.6397379133308214]
大規模な非最適化問題は、現代の機械学習ではユビキタスである。
我々は, 広範囲の合成ミニバッチサイズがグラディエントDescent (SG) 問題に与える影響について実験を行った。
論文 参考訳(メタデータ) (2020-02-09T09:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。