論文の概要: A Comedy of Estimators: On KL Regularization in RL Training of LLMs
- arxiv url: http://arxiv.org/abs/2512.21852v1
- Date: Fri, 26 Dec 2025 04:20:58 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:56:49.71902
- Title: A Comedy of Estimators: On KL Regularization in RL Training of LLMs
- Title(参考訳): 推定器のコマンディ:LLMのRLトレーニングにおけるKL正規化について
- Authors: Vedant Shah, Johan Obando-Ceron, Vineet Jain, Brian Bartoldson, Bhavya Kailkhura, Sarthak Mittal, Glen Berseth, Pablo Samuel Castro, Yoshua Bengio, Nikolay Malkin, Moksh Jain, Siddarth Venkatraman, Aaron Courville,
- Abstract要約: 強化学習(RL)は,大規模言語モデル(LLM)の推論性能を大幅に向上させる
LLMトレーニングのRLの目的は、トレーニングされたポリシーと参照ポリシーの間の逆のKL(Kullback-Leibler)分岐である正規化項を含む。
近年の研究では、KL正則化の実施が目的の正しい勾配を与えていないことが示されており、目的と実施の相違が生じている。
いくつかの推定器構成の勾配について検討し、設計選択が勾配バイアスをどう形成するかを明らかにする。
- 参考スコア(独自算出の注目度): 81.7906270099878
- License:
- Abstract: The reasoning performance of large language models (LLMs) can be substantially improved by training them with reinforcement learning (RL). The RL objective for LLM training involves a regularization term, which is the reverse Kullback-Leibler (KL) divergence between the trained policy and the reference policy. Since computing the KL divergence exactly is intractable, various estimators are used in practice to estimate it from on-policy samples. Despite its wide adoption, including in several open-source libraries, there is no systematic study analyzing the numerous ways of incorporating KL estimators in the objective and their effect on the downstream performance of RL-trained models. Recent works show that prevailing practices for incorporating KL regularization do not provide correct gradients for stated objectives, creating a discrepancy between the objective and its implementation. In this paper, we further analyze these practices and study the gradients of several estimators configurations, revealing how design choices shape gradient bias. We substantiate these findings with empirical observations by RL fine-tuning \texttt{Qwen2.5-7B}, \texttt{Llama-3.1-8B-Instruct} and \texttt{Qwen3-4B-Instruct-2507} with different configurations and evaluating their performance on both in- and out-of-distribution tasks. Through our analysis, we observe that, in on-policy settings: (1) estimator configurations with biased gradients can result in training instabilities; and (2) using estimator configurations resulting in unbiased gradients leads to better performance on in-domain as well as out-of-domain tasks. We also investigate the performance resulting from different KL configurations in off-policy settings and observe that KL regularization can help stabilize off-policy RL training resulting from asynchronous setups.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論性能は、強化学習(RL)を用いて学習することで大幅に向上することができる。
LLMトレーニングのRLの目的は、トレーニングされたポリシーと参照ポリシーの間の逆のKL(Kullback-Leibler)分岐である正規化項を含む。
KLの発散を正確に計算することは難解であるため、様々な推定器が実際にオン・ポリティクスのサンプルから推定するために用いられる。
いくつかのオープンソースライブラリを含む広く採用されているにもかかわらず、KL推定器を目的に組み込む多くの方法とRL学習モデルの下流性能に対する影響を分析する体系的な研究は行われていない。
近年の研究では、KL正則化の実施が目的の正しい勾配を与えていないことが示されており、目的と実施の相違が生じている。
本稿では、これらのプラクティスをさらに分析し、いくつかの推定器構成の勾配について検討し、設計選択が勾配バイアスを形成する方法を明らかにする。
RL fine-tuning \texttt{Qwen2.5-7B}, \texttt{Llama-3.1-8B-Instruct} と \textt{Qwen3-4B-Instruct-2507} で異なる構成で測定し, 分布内および分布外の両方における性能評価を行った。
分析の結果,(1)バイアスのある勾配を持つ推定器の構成はトレーニングの不安定性をもたらすこと,(2)バイアスのない勾配をもたらす推定器の構成を用いることで,ドメイン内だけでなくドメイン外タスクのパフォーマンスも向上することがわかった。
また,KL設定の違いによるパフォーマンスについても検討し,非同期設定による外部RLトレーニングを安定化させる上で,KL正則化が有効であることを示す。
関連論文リスト
- Comparative Analysis and Parametric Tuning of PPO, GRPO, and DAPO for LLM Reasoning Enhancement [0.0]
本研究では,大規模言語モデル(LLM)における複雑な推論を改善するために,3つの強化学習(RL)アルゴリズムを体系的に比較する。
RL学習モデルは,ベンチマークによって改善度が異なるが,対応するベースモデルよりも優れていることがわかった。
GRPO と DAPO におけるグループサイズの増加は、KL-ペナルティ係数の影響が非単調であるのに対して、より安定したトレーニングダイナミクスと高い精度をもたらす。
論文 参考訳(メタデータ) (2025-12-08T14:58:19Z) - Balancing Interpretability and Performance in Reinforcement Learning: An Adaptive Spectral Based Linear Approach [15.065437093352054]
強化学習(RL)はシーケンシャルな意思決定に広く応用されている。
現在のアプローチは一般的にパフォーマンスに重点を置いており、解釈可能性を考慮したポストホックな説明に依存している。
スペクトルフィルタ関数を用いてリッジ回帰に基づくアプローチを拡張するスペクトルベース線形RL法を提案する。
論文 参考訳(メタデータ) (2025-10-04T07:53:43Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - Relative Trajectory Balance is equivalent to Trust-PCL [72.58731629381032]
Relative Trajectory Balance (RTB) は、逐次生成モデルの微調整を改善することを目的としている。
本稿は,KL正則化を用いた非政治RL法であるRTBとTrust-PCLの等価性を確立する。
論文 参考訳(メタデータ) (2025-09-01T17:17:25Z) - KDRL: Post-Training Reasoning LLMs via Unified Knowledge Distillation and Reinforcement Learning [72.53466291156604]
教師の指導(KD)と自己探索(RL)を通じて推論モデルを協調的に最適化するテキスト化後学習フレームワークである textbfKDRL を提案する。
まず、GRPOとKDを統合する統一目的を定式化し、異なるKL近似、KL係数、報酬誘導KD戦略が学習後の全体的なダイナミクスと性能にどのように影響するかを体系的に検討する。
論文 参考訳(メタデータ) (2025-06-02T19:46:41Z) - On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [59.11784194183928]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
規則化されたポリシーグラディエント(RPG)ビューは、広く使われている$k_3$ペナルティが、正確には非正規化されたKLであることを示している。
RPG-REINFORCE with RPG-Style Clipは、DAPOよりも最大6ドル以上の絶対パーセンテージポイントの精度を向上させる。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs [14.78605805191225]
近年,大規模言語モデル(LLM)の強化学習に基づくポストトレーニングが注目されている。
これらの手法の基礎となる定式化と仮定を批判的に検討する。
論文 参考訳(メタデータ) (2025-05-19T19:57:15Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。