論文の概要: On the Second-Order Convergence of Biased Policy Gradient Algorithms
- arxiv url: http://arxiv.org/abs/2311.02546v2
- Date: Wed, 13 Dec 2023 02:24:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 20:17:28.135881
- Title: On the Second-Order Convergence of Biased Policy Gradient Algorithms
- Title(参考訳): Biased Policy Gradient Algorithmの2次収束について
- Authors: Siqiao Mu and Diego Klabjan
- Abstract要約: 我々は、強化学習アルゴリズムがサドルポイントを脱出し、2階の定常点に到達することを保証する。
モンテカルロサンプリング軌道から計算したバニラ勾配推定器を含む勾配法の新しい2次解析法を提案する。
また、初期状態分布に関係なくマルコフ連鎖の収束を確立する。
- 参考スコア(独自算出の注目度): 14.12332303904334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since the objective functions of reinforcement learning problems are
typically highly nonconvex, we seek guarantees that these algorithms escape
saddle points and arrive at second-order stationary points. Existing results
only consider vanilla policy gradient algorithms with unbiased gradient
estimators, but practical implementations under the infinite-horizon discounted
reward setting are biased due to finite-horizon sampling. Moreover,
actor-critic methods, whose second-order convergence has not yet been
established, are also biased due to the critic approximation of the value
function. We provide a novel second-order analysis of biased policy gradient
methods, including the vanilla gradient estimator computed from Monte-Carlo
sampling of trajectories as well as the double-loop actor-critic algorithm,
where in the inner loop the the critic parameter improves the approximation of
the value function via TD(0) learning. Separately, we also establish the
convergence of TD(0) on Markov chains irrespective of initial state
distribution.
- Abstract(参考訳): 強化学習問題の目的関数は一般に高度に非凸であるため,これらのアルゴリズムが鞍点から脱出し,二階定常点に到達する保証を求める。
既存の結果は、偏りのない勾配推定器を用いたバニラポリシー勾配アルゴリズムのみを考慮するが、無限水平割引報酬設定に基づく実践的な実装は、有限水平サンプリングによりバイアスを受ける。
さらに,2次収束が確立されていないアクター批判法も,値関数の批判的近似によりバイアスを受ける。
本稿では,モンテカルロの軌道のサンプリングから算出したバニラ勾配推定器や,2ループアクター批判アルゴリズムを含む,バイアス付き政策勾配法の新しい2次解析を行い,その内部ループでは,評価パラメータがTD(0)学習による値関数の近似を改善する。
また、初期状態分布に関係なく、マルコフ連鎖上のTD(0)の収束も確立する。
関連論文リスト
- Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - Compatible Gradient Approximations for Actor-Critic Algorithms [0.0]
本稿では,アクション値勾配のゼロ次近似を用いることで,そのような精度の必要性を回避できるアクタ批判アルゴリズムを提案する。
実験結果から,本アルゴリズムは現在の最先端手法に適合するだけでなく,しばしば性能を上回ることを示した。
論文 参考訳(メタデータ) (2024-09-02T22:00:50Z) - Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization [20.651913793555163]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。
提案したアルゴリズムに対して,大域的最適収束結果と$widetildemathcalO(frac1epsilon2)$のサンプル複雑性を確立する。
論文 参考訳(メタデータ) (2021-10-19T17:21:09Z) - A Two-Time-Scale Stochastic Optimization Framework with Applications in Control and Reinforcement Learning [13.908826484332282]
最適化問題の解法として,新しい2段階勾配法を提案する。
最初の貢献は、提案した2時間スケール勾配アルゴリズムの有限時間複雑性を特徴づけることである。
我々は、強化学習における勾配に基づく政策評価アルゴリズムに適用する。
論文 参考訳(メタデータ) (2021-09-29T23:15:23Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Smoothed functional-based gradient algorithms for off-policy reinforcement learning: A non-asymptotic viewpoint [8.087699764574788]
政治外の強化学習コンテキストにおける制御問題の解法として,2つのポリシー勾配アルゴリズムを提案する。
どちらのアルゴリズムも、スムーズな関数的勾配推定スキームを取り入れている。
論文 参考訳(メタデータ) (2021-01-06T17:06:42Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - Policy Gradient using Weak Derivatives for Reinforcement Learning [24.50189361694407]
本稿では、継続的な状態対応強化学習問題におけるポリシー探索について考察する。
弱導関数を用いた勾配推定は, 一般的なスコア関数を用いた勾配推定よりも低い値を示した。
論文 参考訳(メタデータ) (2020-04-09T23:05:18Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。