論文の概要: Global Convergence of Wasserstein Policy Gradient for Entropy-Regularized Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.26078v2
- Date: Tue, 26 May 2026 11:46:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.179789
- Title: Global Convergence of Wasserstein Policy Gradient for Entropy-Regularized Reinforcement Learning
- Title(参考訳): エントロピー規則化強化学習のためのワッサースタイン政策勾配のグローバル収束
- Authors: Zhaoyu Zhu, Rui Gao, Shuang Li,
- Abstract要約: Wasserstein Policy gradient (WPG)は、強化学習のためのポリシー最適化手法である。
エントロピー規則化 RL のベルマン構造を利用して WPG に対する大域収束理論を開発する。
解析により、エントロピー正則化 RL は通常の平坦な意味では凸ではないが、ベルマン再帰は好ましいポリアック-ロジャシエヴィチ型幾何を誘導することを示した。
- 参考スコア(独自算出の注目度): 7.683866416886673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wasserstein policy gradient (WPG) is a policy optimization method for reinforcement learning (RL) that exploits the optimal-transport geometry of action distributions. For the entropy-regularized RL objective, WPG evolves each state-conditional policy by transporting it along the action gradient of the soft Q-function together with a Langevin-type diffusion. Despite its appeal for continuous-control problems, its global convergence properties remain poorly understood. Standard Langevin analyses do not directly apply, because the RL objective depends on the policy through the Bellman recursion rather than through a static convex functional, and the Langevin drift is determined by the soft Q-function, whose regularity must be controlled along the policy iterates. In this paper, we develop a global convergence theory for WPG by exploiting the Bellman structure of entropy-regularized RL. We show that the role usually played by convexity can be replaced by a Bellman-based argument: the soft Bellman residual admits a statewise KL representation with respect to a Gibbs policy; Bellman contraction relates this residual to the global optimality gap; and a Bellman resolvent identity connects value improvement to relative Fisher information. Combined with a uniform log-Sobolev inequality (LSI) for the evolving Gibbs family, these ingredients yield a distributional Polyak--Łojasiewicz condition. We further establish the regularity and uniform bounds needed to control the discretization error, thereby obtaining geometric contraction up to a discretization bias. Conceptually, our analysis shows that although entropy-regularized RL is not convex in the usual flat sense, the Bellman recursion induces a favorable Polyak--Lojasiewicz-type (PL) geometry that supports global convergence of WPG.
- Abstract(参考訳): Wasserstein Policy gradient (WPG) は、行動分布の最適輸送幾何を利用する強化学習(RL)のためのポリシー最適化手法である。
エントロピー規則化されたRLの目的に対して、WPGはランゲヴィン型拡散とともにソフトQ関数の作用勾配に沿って輸送することで、各状態条件ポリシーを進化させる。
連続制御問題への訴えにもかかわらず、その大域収束特性はいまだに理解されていない。
標準ランゲヴィン解析は直接適用されない、なぜなら、RL の目的は静的凸函数よりもベルマン再帰によるポリシーに依存し、ランゲヴィンドリフトは、ポリシーに沿って規則性を制御する必要があるソフトQ-函数によって決定されるからである。
本稿では、エントロピー規則化RLのベルマン構造を利用して、WPGのグローバル収束理論を開発する。
ベルマンの残差はギブスの政策に関する状態的KL表現を許容し、ベルマンの縮約はこの残差を大域的最適性ギャップに関連付け、ベルマンの可解恒等式は相対的なフィッシャー情報と値改善を結び付ける。
進化するギブズ族に対する一様対数ソボレフ不等式(LSI)と組み合わせることで、これらの成分は分布するポリアック-ジョジャシエヴィチ状態をもたらす。
さらに、離散化誤差を制御するために必要となる正則性と一様境界を確立し、したがって、離散化バイアスまで幾何学的収縮を得る。
概念的には、エントロピー規則化されたRLは通常の平坦な意味では凸ではないが、ベルマン再帰は、WPGのグローバル収束をサポートする好ましいポリアック-ロジャシエヴィチ型(PL)幾何学を誘導する。
関連論文リスト
- Stochastic MeanFlow Policies: One-Step Generative Control with Entropic Mirror Descent [53.828537014796574]
オンラインの非政治強化学習(RL)は、ポリシークラスと更新ルールの2つの選択肢によって構成されている。
我々は、MeanFlow変換を通じてノイズをアクションにマッピングする一段階生成ポリシークラスであるMeanFlow Policiesを提案する。
7つのMuJoCoベンチマークで、Sは1ステップの推論効率を維持しながら、ガウスおよび生成ベースラインを改善する。
論文 参考訳(メタデータ) (2026-05-20T15:14:14Z) - Continuous-time q-learning for mean-field control with common noise, part-I: Theoretical foundations [7.003100820506273]
共振器を制御したエントロピー規則化平均場制御(MFC)におけるQ関数の連続時間対応について検討した。
我々は、ハミルトン・ヤコビ・ベルマン方程式(HJB)を導出し、制御された共有雑音がポリシーのさらなる非線形機能をもたらす。
平均場設定では、状態分布とポリシに定義された統合q関数(Iq関数)を導入し、最適方針をIq関数のargmax演算子に対する2層固定点として同定することを示した。
論文 参考訳(メタデータ) (2026-04-30T03:37:55Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Stationary Reweighting Yields Local Convergence of Soft Fitted Q-Iteration [40.322273308230606]
そこで本研究では, 関数近似および分布シフトの下で, 適合Q-定数とそのエントロピー規則化された変種であるソフトFQIが不適切に振る舞うことを示す。
本稿では,現在の方針の定常分布を用いて,各回帰更新を重み付けする静止重み付きソフトFQIを紹介する。
解析の結果,ソフトマックス温度を徐々に下げることで,地球規模の収束が回復する可能性が示唆された。
論文 参考訳(メタデータ) (2025-12-30T00:58:35Z) - Non-Asymptotic Global Convergence of PPO-Clip [23.221917827987625]
本稿では,一般RL設定における決定論的アクターのみのPPOアルゴリズムを解析することにより,PPO-Clipアルゴリズムの理論的基礎を推し進める。
この問題に対して不均一リプシッツの滑らか度条件と Ojasiewicz の不等式を導出する。
論文 参考訳(メタデータ) (2025-12-18T14:06:37Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - Entropy annealing for policy mirror descent in continuous time and space [2.8255028200738455]
本研究では,エントロピー正則化が出口時間制御問題に対する政策手法の収束に及ぼす影響について検討する。
本稿では,真の勾配であっても,エントロピー正則化が政策最適化をどのように改善するかを説明する。
論文 参考訳(メタデータ) (2024-05-30T17:02:18Z) - Regularization Guarantees Generalization in Bayesian Reinforcement
Learning through Algorithmic Stability [48.62272919754204]
ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。
我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
論文 参考訳(メタデータ) (2021-09-24T07:48:34Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。