論文の概要: Non-Asymptotic Global Convergence of PPO-Clip
- arxiv url: http://arxiv.org/abs/2512.16565v1
- Date: Thu, 18 Dec 2025 14:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.0909
- Title: Non-Asymptotic Global Convergence of PPO-Clip
- Title(参考訳): PPO-Clipの非漸近的大域収束
- Authors: Yin Liu, Qiming Dai, Junyu Zhang, Zaiwen Wen,
- Abstract要約: 本稿では,一般RL設定における決定論的アクターのみのPPOアルゴリズムを解析することにより,PPO-Clipアルゴリズムの理論的基礎を推し進める。
この問題に対して不均一リプシッツの滑らか度条件と Ojasiewicz の不等式を導出する。
- 参考スコア(独自算出の注目度): 23.221917827987625
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL) has gained attention for aligning large language models (LLMs) via reinforcement learning from human feedback (RLHF). The actor-only variants of Proximal Policy Optimization (PPO) are widely applied for their efficiency. These algorithms incorporate a clipping mechanism to improve stability. Besides, a regularization term, such as the reverse KL-divergence or a more general \(f\)-divergence, is introduced to prevent policy drift. Despite their empirical success, a rigorous theoretical understanding of the problem and the algorithm's properties is limited. This paper advances the theoretical foundations of the PPO-Clip algorithm by analyzing a deterministic actor-only PPO algorithm within the general RL setting with \(f\)-divergence regularization under the softmax policy parameterization. We derive a non-uniform Lipschitz smoothness condition and a Łojasiewicz inequality for the considered problem. Based on these, a non-asymptotic linear convergence rate to the globally optimal policy is established for the forward KL-regularizer. Furthermore, stationary convergence and local linear convergence are derived for the reverse KL-regularizer.
- Abstract(参考訳): 強化学習(RL)は,人的フィードバック(RLHF)からの強化学習を通じて,大規模言語モデル(LLM)の整合性に注目されている。
プロキシポリシー最適化(PPO)のアクターのみの変種は、その効率性に広く応用されている。
これらのアルゴリズムは、安定性を向上させるためのクリッピング機構を組み込んでいる。
また、逆 KL 分割やより一般的な \(f\) 分割のような正規化項を導入して、政策のドリフトを防ぐ。
その経験的成功にもかかわらず、問題の厳密な理論的理解とアルゴリズムの性質は限られている。
本稿では, PPO-Clipアルゴリズムの理論的基礎を, 決定論的アクターのみのPPOアルゴリズムを, ソフトマックスポリシパラメータ化の下で, \(f\)-分割正則化を用いて一般RL内で解析することによって前進させる。
非一様リプシッツ滑らか性条件と、考慮された問題に対するジョジャシエヴィチの不等式を導出する。
これらに基づき、前方KL正則化器に対して、大域的最適ポリシーに対する漸近的でない線形収束速度が確立される。
さらに、逆 KL-正則化器に対して定常収束と局所線型収束が導出される。
関連論文リスト
- Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Fast Policy Learning for Linear Quadratic Control with Entropy Regularization [8.670376057309193]
本稿では,レギュラー化政策勾配 (RPG) と反復政策最適化 (IPO) の2つの新しい政策学習手法を提案し,分析する。
正確な政策評価にアクセスできると仮定すると、どちらの手法も正規化されたLQCの最適ポリシーを見つける際に線形に収束することが証明される。
論文 参考訳(メタデータ) (2023-11-23T19:08:39Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Regularization Guarantees Generalization in Bayesian Reinforcement
Learning through Algorithmic Stability [48.62272919754204]
ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。
我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
論文 参考訳(メタデータ) (2021-09-24T07:48:34Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Neural Proximal/Trust Region Policy Optimization Attains Globally
Optimal Policy [119.12515258771302]
オーバーパラメトリゼーションを備えたPPOOの変種が,グローバルな最適ネットワークに収束することを示す。
我々の分析の鍵は、1次元の単調性の概念の下で無限勾配の反復であり、そこでは勾配はネットワークによって瞬く。
論文 参考訳(メタデータ) (2019-06-25T03:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。