論文の概要: Beyond Softmax and Entropy: Improving Convergence Guarantees of Policy Gradients by f-SoftArgmax Parameterization with Coupled Regularization
- arxiv url: http://arxiv.org/abs/2601.12604v1
- Date: Sun, 18 Jan 2026 22:25:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.697409
- Title: Beyond Softmax and Entropy: Improving Convergence Guarantees of Policy Gradients by f-SoftArgmax Parameterization with Coupled Regularization
- Title(参考訳): ソフトマックスとエントロピーを超えて: 結合正規化によるf-SoftArgmaxパラメータ化による政策勾配の収束保証の改善
- Authors: Safwan Labbi, Daniil Tiapkin, Paul Mangold, Eric Moulines,
- Abstract要約: 政策勾配法は政策パラメータ化の選択に非常に敏感である。
一般化されたf-softargmaxに基づいて,ソフトマックスを代替的なポリシーパラメータ化に置き換えることを提案する。
我々は、いかなる形態のプレコンディショニングも必要とせず、有限 MDP に対する最初の明示的な非漸近的最終点収束保証を確立する。
- 参考スコア(独自算出の注目度): 26.419221337454008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy gradient methods are known to be highly sensitive to the choice of policy parameterization. In particular, the widely used softmax parameterization can induce ill-conditioned optimization landscapes and lead to exponentially slow convergence. Although this can be mitigated by preconditioning, this solution is often computationally expensive. Instead, we propose replacing the softmax with an alternative family of policy parameterizations based on the generalized f-softargmax. We further advocate coupling this parameterization with a regularizer induced by the same f-divergence, which improves the optimization landscape and ensures that the resulting regularized objective satisfies a Polyak-Lojasiewicz inequality. Leveraging this structure, we establish the first explicit non-asymptotic last-iterate convergence guarantees for stochastic policy gradient methods for finite MDPs without any form of preconditioning. We also derive sample-complexity bounds for the unregularized problem and show that f-PG, with Tsallis divergences achieves polynomial sample complexity in contrast to the exponential complexity incurred by the standard softmax parameterization.
- Abstract(参考訳): 政策勾配法は政策パラメータ化の選択に非常に敏感であることが知られている。
特に、広く使われているソフトマックスパラメタライゼーションは、不条件の最適化ランドスケープを誘導し、指数関数的に遅く収束する。
これはプレコンディショニングによって緩和できるが、この解はしばしば計算コストがかかる。
代わりに、一般化された f-softargmax に基づいて、ソフトマックスを代替的なポリシーパラメータ化の族に置き換えることを提案する。
さらに、このパラメータ化と、同じf分割によって誘導される正則化との結合を提唱し、最適化のランドスケープを改善し、その結果の正則化目的がポリアック・ロジャシエヴィチの不等式を満たすことを保証する。
この構造を活用することで、いかなる形態のプレコンディショニングも必要とせず、有限 MDP に対する確率的ポリシー勾配法に対する最初の明示的非漸近的最終点収束保証を確立する。
また、非正規化問題に対するサンプル-複素性境界を導出し、標準ソフトマックスパラメタライゼーションによって引き起こされる指数複雑性とは対照的に、Tsallisの発散を持つf-PGが多項式サンプル複雑性を達成することを示す。
関連論文リスト
- Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Inference on Optimal Dynamic Policies via Softmax Approximation [27.396891119011215]
最適な治療体制に対するソフトマックスの簡単な近似は、真に最適な治療体制に対する妥当な推測を達成できることを示す。
我々の研究は、半パラメトリック推論と$g$-estimationの技法と適切な配列中央極限定理を組み合わせたものである。
論文 参考訳(メタデータ) (2023-03-08T07:42:47Z) - Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [23.596546979904613]
線形決定(MDP)の割引最適率の解法として, 自然政策勾配法を用いる。
また、2つのサンプルベースNPG-PDアルゴリズムに対して有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2022-06-06T04:28:04Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z) - Proximal Gradient Algorithm with Momentum and Flexible Parameter Restart
for Nonconvex Optimization [73.38702974136102]
アルゴリズムの高速化のために,パラメータ再起動方式が提案されている。
本論文では,非滑らかな問題を解くアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。