論文の概要: Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy
Gradient Methods with Entropy Regularization
- arxiv url: http://arxiv.org/abs/2110.10117v1
- Date: Tue, 19 Oct 2021 17:21:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 15:14:22.504539
- Title: Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy
Gradient Methods with Entropy Regularization
- Title(参考訳): 厳密なグラディエントを超えて:エントロピー規則化を伴う確率的ソフトマックスポリシーグラディエント手法の収束
- Authors: Yuhao Ding, Junzi Zhang, Javad Lavaei
- Abstract要約: 古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。
エントロピー項によって導入された対数的ポリシー報酬により、推定子自身は一般に非有界であることが証明されるが、分散は一様有界である。
これにより、定常点と大域的最適ポリシーの両方に対するエントロピー正規化ポリシー勾配法の最初の収束結果の開発が可能となる。
- 参考スコア(独自算出の注目度): 9.622367651590878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Entropy regularization is an efficient technique for encouraging exploration
and preventing a premature convergence of (vanilla) policy gradient methods in
reinforcement learning (RL). However, the theoretical understanding of entropy
regularized RL algorithms has been limited. In this paper, we revisit the
classical entropy regularized policy gradient methods with the soft-max policy
parametrization, whose convergence has so far only been established assuming
access to exact gradient oracles. To go beyond this scenario, we propose the
first set of (nearly) unbiased stochastic policy gradient estimators with
trajectory-level entropy regularization, with one being an unbiased visitation
measure-based estimator and the other one being a nearly unbiased yet more
practical trajectory-based estimator. We prove that although the estimators
themselves are unbounded in general due to the additional logarithmic policy
rewards introduced by the entropy term, the variances are uniformly bounded.
This enables the development of the first set of convergence results for
stochastic entropy regularized policy gradient methods to both stationary
points and globally optimal policies. We also develop some improved sample
complexity results under a good initialization.
- Abstract(参考訳): エントロピー正則化(Entropy regularization)は、強化学習(RL)における(バニラ)政策勾配法の早期収束を促進・防止するための効率的な手法である。
しかし、エントロピー正規化RLアルゴリズムの理論的理解は限られている。
本稿では,従来のエントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。
このシナリオを超えて、軌道レベルのエントロピー正則性を持つ(ほぼ)確率的方針勾配推定器の第一セットを提案し、一方は非バイアス的訪問測度に基づく推定器であり、他方はほぼバイアスのない、より実用的な軌跡に基づく推定器である。
エントロピー項によって導入された対数的ポリシー報酬により、推定子自身は一般に非有界であることが証明されるが、分散は一様有界である。
これにより、確率的エントロピー正規化政策勾配法における最初の収束結果が定常点とグローバル最適政策の両方に展開できる。
また、優れた初期化の下で、いくつかの改良されたサンプル複雑性結果も開発する。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Full error analysis of policy gradient learning algorithms for exploratory linear quadratic mean-field control problem in continuous time with common noise [0.0]
政策勾配学習(PG)について検討し,まずモデルベース環境での収束を実証する。
モデルフリー環境では,2点勾配推定を用いたPGアルゴリズムの線形収束とサンプル複雑性を大域的に証明する。
この設定では、パラメータ化された最適ポリシーは、状態と人口分布のサンプルから学習される。
論文 参考訳(メタデータ) (2024-08-05T14:11:51Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:17:52Z) - Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [21.347689976296834]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。
また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2022-06-06T04:28:04Z) - On the Convergence Rates of Policy Gradient Methods [9.74841674275568]
有限状態部分空間における幾何的に割引された支配問題を考える。
試料中の直交勾配のパラリゼーションにより、勾配の一般的な複雑さを解析できることが示される。
論文 参考訳(メタデータ) (2022-01-19T07:03:37Z) - Convergence of policy gradient for entropy regularized MDPs with neural
network approximation in the mean-field regime [0.0]
無限水平連続状態および行動空間,エントロピー規則化マルコフ決定過程(MDPs)に対する政策勾配のグローバル収束性について検討する。
結果は非線形フォッカー-プランク-コルモゴロフ方程式の慎重な解析に依存する。
論文 参考訳(メタデータ) (2022-01-18T20:17:16Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。