論文の概要: Linear Convergence of Entropy-Regularized Natural Policy Gradient with
Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2106.04096v4
- Date: Thu, 8 Feb 2024 11:02:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 20:08:31.607658
- Title: Linear Convergence of Entropy-Regularized Natural Policy Gradient with
Linear Function Approximation
- Title(参考訳): エントロピー正規化自然政策勾配の線形収束と線形関数近似
- Authors: Semih Cayci, Niao He, R. Srikant
- Abstract要約: 線形関数近似を用いたエントロピー規則化NPGの有限時間収束解析を確立した。
エントロピー規則化NPGは関数近似誤差までのエンフィナール収束を示すことを示す。
- 参考スコア(独自算出の注目度): 30.02577720946978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural policy gradient (NPG) methods with entropy regularization achieve
impressive empirical success in reinforcement learning problems with large
state-action spaces. However, their convergence properties and the impact of
entropy regularization remain elusive in the function approximation regime. In
this paper, we establish finite-time convergence analyses of
entropy-regularized NPG with linear function approximation under softmax
parameterization. In particular, we prove that entropy-regularized NPG with
averaging satisfies the \emph{persistence of excitation} condition, and
achieves a fast convergence rate of $\tilde{O}(1/T)$ up to a function
approximation error in regularized Markov decision processes. This convergence
result does not require any a priori assumptions on the policies. Furthermore,
under mild regularity conditions on the concentrability coefficient and basis
vectors, we prove that entropy-regularized NPG exhibits \emph{linear
convergence} up to a function approximation error.
- Abstract(参考訳): エントロピー正規化を伴う自然政策勾配法(NPG)は, 大規模状態対応空間を持つ強化学習問題において, 目覚ましい成功を収めた。
しかし、それらの収束特性とエントロピー正則化の影響は、関数近似系において明らかになっていない。
本稿では,線形関数近似を用いたエントロピー規則化NPGの有限時間収束解析を行う。
特に, 平均化したエントロピー正規化NPGが \emph{peristence of excitation} 条件を満たすことを証明し, 正規化マルコフ決定過程における関数近似誤差まで, $\tilde{O}(1/T)$の高速収束率を達成する。
この収束結果は、ポリシーに対する事前の仮定を必要としない。
さらに, 集中度係数と基底ベクトルの軽度正則性条件下では, エントロピー正規化npgが関数近似誤差まで \emph{linear convergence} を示すことを証明した。
関連論文リスト
- Entropy annealing for policy mirror descent in continuous time and space [2.8255028200738455]
本研究では、エントロピー規則化値関数の勾配に基づいてポリシーを更新する連続時間ポリシーミラー降下ダイナミクスを解析する。
固定エントロピーレベルでは、力学は正規化問題の最適解に指数関数的に収束する。
論文 参考訳(メタデータ) (2024-05-30T17:02:18Z) - Geometry and convergence of natural policy gradient methods [0.0]
規則的な政策パラメトリゼーションを伴う無限水平割引マルコフ決定過程におけるいくつかの自然政策勾配法(NPG)の収束について検討する。
様々なNPGや報酬関数に対して、状態作用空間の軌跡がヘッセン幾何学に関する勾配流の解であることを示す。
論文 参考訳(メタデータ) (2022-11-03T19:16:15Z) - Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:17:52Z) - Convergence and sample complexity of natural policy gradient primal-dual
methods for constrained MDPs [24.582720609592464]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。
また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2022-06-06T04:28:04Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization [20.651913793555163]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。
提案したアルゴリズムに対して,大域的最適収束結果と$widetildemathcalO(frac1epsilon2)$のサンプル複雑性を確立する。
論文 参考訳(メタデータ) (2021-10-19T17:21:09Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z) - Optimization with Momentum: Dynamical, Control-Theoretic, and Symplectic
Perspectives [97.16266088683061]
この論文は、運動量に基づく最適化アルゴリズムにおいてシンプレクティックな離散化スキームが重要であることを厳格に証明している。
これは加速収束を示すアルゴリズムの特性を提供する。
論文 参考訳(メタデータ) (2020-02-28T00:32:47Z) - Convergence and sample complexity of gradient methods for the model-free
linear quadratic regulator problem [27.09339991866556]
本稿では,コントローラの空間を直接探索することにより,未知の計算系に対する最適制御を求める。
我々は、安定化フィードバックゲインの勾配-フローのダイナミクスセットに焦点をあてて、そのような手法の性能と効率を最小化するための一歩を踏み出した。
論文 参考訳(メタデータ) (2019-12-26T16:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。