論文の概要: On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2505.17508v1
- Date: Fri, 23 May 2025 06:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.85457
- Title: On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning
- Title(参考訳): LLM推論のためのKL規則化ポリシー勾配アルゴリズムの設計について
- Authors: Yifan Zhang, Yifeng Liu, Huizhuo Yuan, Yang Yuan, Quanquan Gu, Andrew C Yao,
- Abstract要約: 政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
オンライン強化学習環境におけるKL正規化政策勾配法を導出・解析するためのフレームワークである正則化政策勾配(RPG)を提案する。
RPGは、GRPO、REINFORCE++、DAPOといった強力なベースラインと比較して、トレーニングの安定性とパフォーマンスの面で改善あるいは競争力のある結果を示している。
- 参考スコア(独自算出の注目度): 50.856589224454055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradient algorithms have been successfully applied to enhance the reasoning capabilities of large language models (LLMs). Despite the widespread use of Kullback-Leibler (KL) regularization in policy gradient algorithms to stabilize training, the systematic exploration of how different KL divergence formulations can be estimated and integrated into surrogate loss functions for online reinforcement learning (RL) presents a nuanced and systematically explorable design space. In this paper, we propose regularized policy gradient (RPG), a systematic framework for deriving and analyzing KL-regularized policy gradient methods in the online RL setting. We derive policy gradients and corresponding surrogate loss functions for objectives regularized by both forward and reverse KL divergences, considering both normalized and unnormalized policy distributions. Furthermore, we present derivations for fully differentiable loss functions as well as REINFORCE-style gradient estimators, accommodating diverse algorithmic needs. We conduct extensive experiments on RL for LLM reasoning using these methods, showing improved or competitive results in terms of training stability and performance compared to strong baselines such as GRPO, REINFORCE++, and DAPO. The code is available at https://github.com/complex-reasoning/RPG.
- Abstract(参考訳): 政策勾配アルゴリズムは、大規模言語モデル(LLM)の推論能力を高めるためにうまく応用されている。
Kullback-Leibler (KL) の規則化を政策勾配アルゴリズムに応用してトレーニングを安定させているにもかかわらず、オンライン強化学習(RL)の代理損失関数にどのように異なるKL分散式を推定し、組み込むことができるかという体系的な調査では、微妙で体系的に探索可能な設計空間が提示されている。
本稿では、オンラインRL設定において、KL規則化ポリシー勾配法を導出・解析するための体系的フレームワークである正規化ポリシー勾配(RPG)を提案する。
我々は、正規化と非正規化の両方を考慮して、前向きと逆向きのKL分岐によって正規化された目的に対して、ポリシー勾配と対応する代理損失関数を導出する。
さらに,ReINFORCEスタイルの勾配推定器と完全微分可能損失関数の導出を行い,多様なアルゴリズム的ニーズを調節する。
これらの手法を用いてLLM推論のためのRLに関する広範な実験を行い、GRPO、REINFORCE++、DAPOといった強力なベースラインと比較して、トレーニング安定性と性能の観点から改善または競争性を示す。
コードはhttps://github.com/complex-reasoning/RPGで公開されている。
関連論文リスト
- CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models [11.295986905174635]
ルールベース強化学習(RL)は、ルールベース報酬を用いた言語モデル(LM)の推論能力を改善した。
既存のRLメソッドは、大きなポリシー更新と不適切なクリッピングがトレーニングの崩壊につながるような、トレーニングの不安定さに悩まされることが多い。
本稿では,政策学習の安定化を目的とした新しいアルゴリズムCPGDを提案する。
論文 参考訳(メタデータ) (2025-05-18T17:44:53Z) - Behavior-Regularized Diffusion Policy Optimization for Offline Reinforcement Learning [22.333460316347264]
本稿では,拡散型ポリシーに適した行動規則化RLフレームワークであるBDPOを紹介する。
我々は,行動制約を尊重しながら最適なポリシーを生成する,効率的な2時間スケールアクタークリティカルなRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-02-07T09:30:35Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - Global Convergence Using Policy Gradient Methods for Model-free
Markovian Jump Linear Quadratic Control [8.98732207994362]
離散時間およびモデルフリーなマルコフジャンプ線形系の制御のための勾配に基づくポリシー最適化手法のグローバル収束性について検討する。
本研究では、勾配勾配勾配法と自然政策勾配法を用いて、政策のグローバル収束を示す。
論文 参考訳(メタデータ) (2021-11-30T09:26:26Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。