論文の概要: On the Convergence of Discounted Policy Gradient Methods
- arxiv url: http://arxiv.org/abs/2212.14066v1
- Date: Wed, 28 Dec 2022 19:05:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:29:13.011006
- Title: On the Convergence of Discounted Policy Gradient Methods
- Title(参考訳): 分散政策勾配法の収束性について
- Authors: Chris Nota
- Abstract要約: 割引係数が減少する学習率に関連する速度で緩やかに増加するように、割引近似が追従された場合、その結果、未公表の目的に応じて勾配の標準保証を回復する。
- 参考スコア(独自算出の注目度): 5.665283675533072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many popular policy gradient methods for reinforcement learning follow a
biased approximation of the policy gradient known as the discounted
approximation. While it has been shown that the discounted approximation of the
policy gradient is not the gradient of any objective function, little else is
known about its convergence behavior or properties. In this paper, we show that
if the discounted approximation is followed such that the discount factor is
increased slowly at a rate related to a decreasing learning rate, the resulting
method recovers the standard guarantees of gradient ascent on the undiscounted
objective.
- Abstract(参考訳): 強化学習のための一般的な政策勾配法は、割引近似として知られる政策勾配のバイアス近似に従う。
方針勾配の値引き近似は目的関数の勾配ではないことが示されているが、その収束挙動や性質についてはほとんど知られていない。
本稿では,割引係数が学習率の低下に関連する速度で緩やかに増加するように,割引近似が追従された場合,その結果,未確認目標の勾配上昇の標準保証を回復する。
関連論文リスト
- vMFER: Von Mises-Fisher Experience Resampling Based on Uncertainty of Gradient Directions for Policy Improvement [57.926269845305804]
本研究は、アンサンブル批評家が政策改善に与える影響について検討する。
本稿では、政策改善プロセスで利用される勾配間の不一致を測定する手段として、勾配方向の不確実性の概念を導入する。
政策改善プロセスにおいて、勾配方向の不確実性の低い遷移の方が信頼性が高いことが判明した。
論文 参考訳(メタデータ) (2024-05-14T14:18:25Z) - Optimization Landscape of Policy Gradient Methods for Discrete-time
Static Output Feedback [22.21598324895312]
本稿では,静的な出力フィードバック制御に適用した場合に,ポリシー勾配法に固有の最適化環境を解析する。
3つの政策勾配法に対する定常点への収束(およびほぼ次元自由率)に関する新しい知見を導出する。
我々は,バニラポリシー勾配法が,そのようなミニマに近づいた場合,局所最小マに対して線形収束を示すことを示す。
論文 参考訳(メタデータ) (2023-10-29T14:25:57Z) - A Policy Gradient Method for Confounded POMDPs [7.75007282943125]
オフライン環境下での連続状態と観測空間を持つ部分観測可能マルコフ決定過程(POMDP)の整合化のためのポリシー勾配法を提案する。
まず、オフラインデータを用いて、POMDPの履歴依存ポリシー勾配を非パラメトリックに推定するために、新しい識別結果を確立する。
論文 参考訳(メタデータ) (2023-05-26T16:48:05Z) - Point Cloud Denoising via Momentum Ascent in Gradient Fields [72.93429911044903]
ニューラルネットワークを用いて雑音点雲から勾配場を推定する勾配法を提案した。
そこで我々は, 過去の反復情報を利用して, 点の軌道を決定する運動量勾配上昇法を開発した。
実験により, 提案手法は, 様々な点群, ノイズタイプ, 騒音レベルを有する最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2022-02-21T10:21:40Z) - A Temporal-Difference Approach to Policy Gradient Estimation [27.749993205038148]
本稿では,特定のサンプリング戦略を必要とせず,開始状態から方針勾配を再構築する新しい手法を提案する。
本研究では、非政治データストリームからの勾配批判の時間差更新を用いて、分散シフト問題をモデル無しでサイドステップする最初の推定器を開発する。
論文 参考訳(メタデータ) (2022-02-04T21:23:33Z) - Bag of Tricks for Natural Policy Gradient Reinforcement Learning [87.54231228860495]
我々は,自然政策勾配強化学習のパフォーマンスに影響を及ぼす戦略を実装し,比較した。
提案されたパフォーマンス最適化戦略の収集は、MuJuCoコントロールベンチマークにおいて、結果を86%から181%改善することができる。
論文 参考訳(メタデータ) (2022-01-22T17:44:19Z) - Sample Efficient Reinforcement Learning with REINFORCE [10.884278019498588]
本稿では,古典的政策勾配法と広く用いられているREINFORCE推定手法について考察する。
悪い」エピソードの数を制御することによって、常にサブリニアな高い後悔の束縛を確立し、平均的後悔のグローバル収束を、アナルなサブリニアレートでほぼ確実に確立する。
これらのアルゴリズムは、よく知られたREINFORCEアルゴリズムに対して、グローバル収束とサンプル効率の最初のセットを提供し、実際にの性能をよりよく理解するのに貢献する。
論文 参考訳(メタデータ) (2020-10-22T01:02:55Z) - A Study of Gradient Variance in Deep Learning [56.437755740715396]
階層化サンプリングによる平均ミニバッチ勾配のばらつきを最小化する手法であるグラディエントクラスタリングを導入する。
我々は、一般的なディープラーニングベンチマークの勾配分散を測定し、一般的な仮定に反して、トレーニング中に勾配分散が増加することを観察する。
論文 参考訳(メタデータ) (2020-07-09T03:23:10Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z) - Complexity Guarantees for Polyak Steps with Momentum [76.97851351276165]
そこでは,この知識を最適な値である$f_*$で置き換える。
まず、Polyak ステップによる単純な勾配勾配の古典的な場合よりも若干改善された収束境界を示し、その後、収束保証とともに、Polyak ステップと運動量を持つ加速勾配法を導出する。
論文 参考訳(メタデータ) (2020-02-03T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。