論文の概要: Preliminary Analysis on Second-Order Convergence for Biased Policy
Gradient Methods
- arxiv url: http://arxiv.org/abs/2311.02546v1
- Date: Sun, 5 Nov 2023 02:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 17:04:55.835230
- Title: Preliminary Analysis on Second-Order Convergence for Biased Policy
Gradient Methods
- Title(参考訳): Biased Policy Gradient Methodの2次収束に関する予備的検討
- Authors: Siqiao Mu and Diego Klabjan
- Abstract要約: 政策アルゴリズムの1次定常点への収束に対する拡張を2つ提示する。
次のステップではアクター批判アルゴリズムに対する有限一階収束解析を提案する。
- 参考スコア(独自算出の注目度): 14.12332303904334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although the convergence of policy gradient algorithms to first-order
stationary points is well-established, the objective functions of reinforcement
learning problems are typically highly nonconvex. Therefore, recent work has
focused on two extensions: ``global" convergence guarantees under regularity
assumptions on the function structure, and second-order guarantees for escaping
saddle points and convergence to true local minima. Our work expands on the
latter approach, avoiding the restrictive assumptions of the former that may
not apply to general objective functions. Existing results on vanilla policy
gradient only consider an unbiased gradient estimator, but practical
implementations under the infinite-horizon discounted setting, including both
Monte-Carlo methods and actor-critic methods, involve gradient descent updates
with a biased gradient estimator. We present preliminary results on the
convergence of biased policy gradient algorithms to second-order stationary
points, leveraging proof techniques from nonconvex optimization. In our next
steps we aim to provide the first finite-time second-order convergence analysis
for actor-critic algorithms.
- Abstract(参考訳): 一階定常点への方針勾配アルゴリズムの収束は十分に確立されているが、強化学習問題の目的関数は一般に非常に非凸である。
したがって、最近の研究は2つの拡張に焦点を当てている: ‘global' convergence guarantees under regularity assumptions on the function structure, and second-order guarantees for savedle points and convergence to true local minima。
我々の研究は後者のアプローチで拡大し、一般目的関数には適用できない前者の制限的な仮定を避けます。
バニラ政策勾配の既存の結果は偏りのない勾配推定子のみを考えるが、モンテカルロ法とアクタ-クリティック法の両方を含む無限ホリゾンディスカウント設定の下での実用的な実装には、偏り勾配推定子による勾配降下更新が含まれる。
本稿では,非凸最適化による証明手法を活用した2次定常点へのバイアスド・ポリシー勾配アルゴリズムの収束に関する予備結果を示す。
次のステップでは,アクター批判アルゴリズムに対する第1次有限時間2次収束解析を提案する。
関連論文リスト
- Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - Compatible Gradient Approximations for Actor-Critic Algorithms [0.0]
本稿では,アクション値勾配のゼロ次近似を用いることで,そのような精度の必要性を回避できるアクタ批判アルゴリズムを提案する。
実験結果から,本アルゴリズムは現在の最先端手法に適合するだけでなく,しばしば性能を上回ることを示した。
論文 参考訳(メタデータ) (2024-09-02T22:00:50Z) - Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization [20.651913793555163]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。
提案したアルゴリズムに対して,大域的最適収束結果と$widetildemathcalO(frac1epsilon2)$のサンプル複雑性を確立する。
論文 参考訳(メタデータ) (2021-10-19T17:21:09Z) - A Two-Time-Scale Stochastic Optimization Framework with Applications in Control and Reinforcement Learning [13.908826484332282]
最適化問題の解法として,新しい2段階勾配法を提案する。
最初の貢献は、提案した2時間スケール勾配アルゴリズムの有限時間複雑性を特徴づけることである。
我々は、強化学習における勾配に基づく政策評価アルゴリズムに適用する。
論文 参考訳(メタデータ) (2021-09-29T23:15:23Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Smoothed functional-based gradient algorithms for off-policy reinforcement learning: A non-asymptotic viewpoint [8.087699764574788]
政治外の強化学習コンテキストにおける制御問題の解法として,2つのポリシー勾配アルゴリズムを提案する。
どちらのアルゴリズムも、スムーズな関数的勾配推定スキームを取り入れている。
論文 参考訳(メタデータ) (2021-01-06T17:06:42Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - Policy Gradient using Weak Derivatives for Reinforcement Learning [24.50189361694407]
本稿では、継続的な状態対応強化学習問題におけるポリシー探索について考察する。
弱導関数を用いた勾配推定は, 一般的なスコア関数を用いた勾配推定よりも低い値を示した。
論文 参考訳(メタデータ) (2020-04-09T23:05:18Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。