Fugu-MT 論文翻訳(概要): Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization

論文の概要: Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization

arxiv url: http://arxiv.org/abs/2110.10117v1
Date: Tue, 19 Oct 2021 17:21:09 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-20 15:14:22.504539
Title: Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization
Title（参考訳）: 厳密なグラディエントを超えて:エントロピー規則化を伴う確率的ソフトマックスポリシーグラディエント手法の収束
Authors: Yuhao Ding, Junzi Zhang, Javad Lavaei
Abstract要約: 古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。エントロピー項によって導入された対数的ポリシー報酬により、推定子自身は一般に非有界であることが証明されるが、分散は一様有界である。これにより、定常点と大域的最適ポリシーの両方に対するエントロピー正規化ポリシー勾配法の最初の収束結果の開発が可能となる。
参考スコア（独自算出の注目度）: 9.622367651590878
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Entropy regularization is an efficient technique for encouraging exploration and preventing a premature convergence of (vanilla) policy gradient methods in reinforcement learning (RL). However, the theoretical understanding of entropy regularized RL algorithms has been limited. In this paper, we revisit the classical entropy regularized policy gradient methods with the soft-max policy parametrization, whose convergence has so far only been established assuming access to exact gradient oracles. To go beyond this scenario, we propose the first set of (nearly) unbiased stochastic policy gradient estimators with trajectory-level entropy regularization, with one being an unbiased visitation measure-based estimator and the other one being a nearly unbiased yet more practical trajectory-based estimator. We prove that although the estimators themselves are unbounded in general due to the additional logarithmic policy rewards introduced by the entropy term, the variances are uniformly bounded. This enables the development of the first set of convergence results for stochastic entropy regularized policy gradient methods to both stationary points and globally optimal policies. We also develop some improved sample complexity results under a good initialization.
Abstract（参考訳）: エントロピー正則化(Entropy regularization)は、強化学習(RL)における(バニラ)政策勾配法の早期収束を促進・防止するための効率的な手法である。しかし、エントロピー正規化RLアルゴリズムの理論的理解は限られている。本稿では,従来のエントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。このシナリオを超えて、軌道レベルのエントロピー正則性を持つ(ほぼ)確率的方針勾配推定器の第一セットを提案し、一方は非バイアス的訪問測度に基づく推定器であり、他方はほぼバイアスのない、より実用的な軌跡に基づく推定器である。エントロピー項によって導入された対数的ポリシー報酬により、推定子自身は一般に非有界であることが証明されるが、分散は一様有界である。これにより、確率的エントロピー正規化政策勾配法における最初の収束結果が定常点とグローバル最適政策の両方に展開できる。また、優れた初期化の下で、いくつかの改良されたサンプル複雑性結果も開発する。

関連論文リスト

Ordering-based Conditions for Global Convergence of Policy Gradient Methods [73.6366483406033]
線形関数近似を持つ有限腕バンディットに対して、ポリシー勾配法(PG)のグローバル収束はポリシー更新と表現の間の関係性に依存することを証明した。全体として、これらの観測は線形関数近似の下でのPG法の大域収束を特徴づけるための適切な量として、疑問近似誤差を訴えている。
論文参考訳（メタデータ） (2025-04-02T21:06:28Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。 D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文参考訳（メタデータ） (2024-08-19T14:11:04Z)
Full error analysis of policy gradient learning algorithms for exploratory linear quadratic mean-field control problem in continuous time with common noise [0.0]
政策勾配学習(PG)について検討し,まずモデルベース環境での収束を実証する。モデルフリー環境では,2点勾配推定を用いたPGアルゴリズムの線形収束とサンプル複雑性を大域的に証明する。この設定では、パラメータ化された最適ポリシーは、状態と人口分布のサンプルから学習される。
論文参考訳（メタデータ） (2024-08-05T14:11:51Z)
Optimal Rates of Convergence for Entropy Regularization in Discounted Markov Decision Processes [4.714840786221651]
マルコフ決定過程におけるエントロピー正則化による誤差について検討する。この誤差は逆正則化強度で指数関数的に減少することを示す。私たちは分析をエントロピーを超えた設定に拡張します。
論文参考訳（メタデータ） (2024-06-06T15:20:37Z)
Entropy annealing for policy mirror descent in continuous time and space [2.8255028200738455]
本研究では,エントロピー正則化が出口時間制御問題に対する政策手法の収束に及ぼす影響について検討する。本稿では,真の勾配であっても,エントロピー正則化が政策最適化をどのように改善するかを説明する。
論文参考訳（メタデータ） (2024-05-30T17:02:18Z)
Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文参考訳（メタデータ） (2023-06-20T17:27:31Z)
Linear Convergence of Natural Policy Gradient Methods with Log-Linear Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文参考訳（メタデータ） (2022-10-04T06:17:52Z)
Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [21.347689976296834]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文参考訳（メタデータ） (2022-06-06T04:28:04Z)
On the Convergence Rates of Policy Gradient Methods [9.74841674275568]
有限状態部分空間における幾何的に割引された支配問題を考える。試料中の直交勾配のパラリゼーションにより、勾配の一般的な複雑さを解析できることが示される。
論文参考訳（メタデータ） (2022-01-19T07:03:37Z)
Convergence of policy gradient for entropy regularized MDPs with neural network approximation in the mean-field regime [0.0]
無限水平連続状態および行動空間,エントロピー規則化マルコフ決定過程(MDPs)に対する政策勾配のグローバル収束性について検討する。結果は非線形フォッカー-プランク-コルモゴロフ方程式の慎重な解析に依存する。
論文参考訳（メタデータ） (2022-01-18T20:17:16Z)
Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文参考訳（メタデータ） (2021-12-29T18:46:52Z)
On the Convergence of Stochastic Extragradient for Bilinear Games with Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文参考訳（メタデータ） (2021-06-30T17:51:36Z)
High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文参考訳（メタデータ） (2021-06-10T17:54:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。