Fugu-MT 論文翻訳(概要): Linear Convergence of Entropy-Regularized Natural Policy Gradient with Linear Function Approximation

論文の概要: Linear Convergence of Entropy-Regularized Natural Policy Gradient with Linear Function Approximation

arxiv url: http://arxiv.org/abs/2106.04096v1
Date: Tue, 8 Jun 2021 04:30:39 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-09 16:07:31.164927
Title: Linear Convergence of Entropy-Regularized Natural Policy Gradient with Linear Function Approximation
Title（参考訳）: エントロピー正規化自然政策勾配の線形収束と線形関数近似
Authors: Semih Cayci, Niao He, R. Srikant
Abstract要約: 広範に使用されているエントロピー正則化法が探索を促進することが線形収束率につながることを初めて証明する。リアプノフドリフト解析を用いて収束結果を証明し、収束率の向上におけるエントロピー正則化の有効性を説明する。
参考スコア（独自算出の注目度）: 42.32583339032633
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Natural policy gradient (NPG) methods with function approximation achieve impressive empirical success in reinforcement learning problems with large state-action spaces. However, theoretical understanding of their convergence behaviors remains limited in the function approximation setting. In this paper, we perform a finite-time analysis of NPG with linear function approximation and softmax parameterization, and prove for the first time that widely used entropy regularization method, which encourages exploration, leads to linear convergence rate. We adopt a Lyapunov drift analysis to prove the convergence results and explain the effectiveness of entropy regularization in improving the convergence rates.
Abstract（参考訳）: 関数近似を用いた自然政策勾配法(NPG)は, 大規模状態行動空間を持つ強化学習問題において, 目覚ましい成功を収めた。しかし、それらの収束挙動の理論的理解は、関数近似の設定において制限されている。本稿では,線形関数近似とソフトマックスパラメータ化を用いたNPGの有限時間解析を行い,広範に使用されているエントロピー正則化法が線形収束率を導いたことを初めて証明する。我々は,収束結果を証明するためにリアプノフドリフト解析を適用し,エントロピー正則化が収束率を改善する効果を説明する。

関連論文リスト

Non-convex entropic mean-field optimization via Best Response flow [0.0]
固定基準測度に関して、相対エントロピー(KL)によって正規化される空間確率測度における非函数の最小化の問題について議論する。非函数から正規化子を選択する方法を示すので、Best Response は$L1$Wasserstein 距離の縮約となる。
論文参考訳（メタデータ） (2025-05-28T18:22:08Z)
Rethinking the Global Convergence of Softmax Policy Gradient with Linear Function Approximation [52.772454746132276]
問題依存量のモデル化における近似誤差は,アルゴリズムのグローバル収束とは無関係であることを示す。我々は,任意の定値学習率を持つ$textttLin-SPG$が,最適ポリシーへのグローバル収束を保証することを証明した。
論文参考訳（メタデータ） (2025-05-06T04:03:06Z)
Ordering-based Conditions for Global Convergence of Policy Gradient Methods [73.6366483406033]
線形関数近似を持つ有限腕バンディットに対して、ポリシー勾配法(PG)のグローバル収束はポリシー更新と表現の間の関係性に依存することを証明した。全体として、これらの観測は線形関数近似の下でのPG法の大域収束を特徴づけるための適切な量として、疑問近似誤差を訴えている。
論文参考訳（メタデータ） (2025-04-02T21:06:28Z)
Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。 D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文参考訳（メタデータ） (2024-08-19T14:11:04Z)
Optimal Rates of Convergence for Entropy Regularization in Discounted Markov Decision Processes [4.714840786221651]
マルコフ決定過程におけるエントロピー正則化による誤差について検討する。この誤差は逆正則化強度で指数関数的に減少することを示す。私たちは分析をエントロピーを超えた設定に拡張します。
論文参考訳（メタデータ） (2024-06-06T15:20:37Z)
Entropy annealing for policy mirror descent in continuous time and space [2.8255028200738455]
本研究では、エントロピー規則化値関数の勾配に基づいてポリシーを更新する連続時間ポリシーミラー降下ダイナミクスを解析する。固定エントロピーレベルでは、力学は正規化問題の最適解に指数関数的に収束する。
論文参考訳（メタデータ） (2024-05-30T17:02:18Z)
Geometry and convergence of natural policy gradient methods [0.0]
規則的な政策パラメトリゼーションを伴う無限水平割引マルコフ決定過程におけるいくつかの自然政策勾配法(NPG)の収束について検討する。様々なNPGや報酬関数に対して、状態作用空間の軌跡がヘッセン幾何学に関する勾配流の解であることを示す。
論文参考訳（メタデータ） (2022-11-03T19:16:15Z)
Linear Convergence of Natural Policy Gradient Methods with Log-Linear Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文参考訳（メタデータ） (2022-10-04T06:17:52Z)
Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [21.347689976296834]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文参考訳（メタデータ） (2022-06-06T04:28:04Z)
Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文参考訳（メタデータ） (2021-12-29T18:46:52Z)
Faster Algorithm and Sharper Analysis for Constrained Markov Decision Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文参考訳（メタデータ） (2021-10-20T02:57:21Z)
Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization [20.651913793555163]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。提案したアルゴリズムに対して,大域的最適収束結果と$widetildemathcalO(frac1epsilon2)$のサンプル複雑性を確立する。
論文参考訳（メタデータ） (2021-10-19T17:21:09Z)
On the Convergence of Stochastic Extragradient for Bilinear Games with Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文参考訳（メタデータ） (2021-06-30T17:51:36Z)
SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文参考訳（メタデータ） (2020-03-05T14:33:20Z)
Convergence and sample complexity of gradient methods for the model-free linear quadratic regulator problem [27.09339991866556]
本稿では,コントローラの空間を直接探索することにより,未知の計算系に対する最適制御を求める。我々は、安定化フィードバックゲインの勾配-フローのダイナミクスセットに焦点をあてて、そのような手法の性能と効率を最小化するための一歩を踏み出した。
論文参考訳（メタデータ） (2019-12-26T16:56:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。