論文の概要: EMA Policy Gradient: Taming Reinforcement Learning for LLMs with EMA Anchor and Top-k KL
- arxiv url: http://arxiv.org/abs/2602.04417v1
- Date: Wed, 04 Feb 2026 10:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.489148
- Title: EMA Policy Gradient: Taming Reinforcement Learning for LLMs with EMA Anchor and Top-k KL
- Title(参考訳): EMAポリシーグラディエント:EMAアンカーとトップkKLを用いたLCMのモデリング強化学習
- Authors: Lunjun Zhang, Jimmy Ba,
- Abstract要約: 大規模言語モデル(LLM)の勾配ポリシーアルゴリズムを改善するための2つの手法を提案する。
まず、RL中の固定アンカーポリシーを指数移動平均(EMA)に置き換える。
第2に、正確なKLとサンプルKLのフレキシブルなTop-k KL推定器を導入する。
- 参考スコア(独自算出の注目度): 19.463033284177087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has enabled Large Language Models (LLMs) to acquire increasingly complex reasoning and agentic behaviors. In this work, we propose two simple techniques to improve policy gradient algorithms for LLMs. First, we replace the fixed anchor policy during RL with an Exponential Moving Average (EMA), similar to a target network in deep Q-learning. Second, we introduce Top-k KL estimator, which allows for flexible interpolation between exact KL and sampled KL. We derive the stability conditions for using EMA anchor; moreover, we show that our Top-k KL estimator yields both unbiased KL values and unbiased gradients at any k, while bringing the benefits of exact KL. When combined with GRPO, the two techniques (EMA-PG) lead to a significant performance boost. On math reasoning, it allows R1-distilled Qwen-1.5B to reach 53.9% on OlympiadBench compared to 50.8% by GRPO. On agentic RL domains, with Qwen-3B base, EMA-PG improves GRPO by an average of 33.3% across 7 datasets of Q&A with search engines, including 29.7% $\rightarrow$ 44.1% on HotpotQA, 27.4% $\rightarrow$ 40.1% on 2WikiMultiHopQA. Overall, we show that EMA-PG is a simple, principled, and powerful approach to scaling RL for LLMs. Code: https://github.com/LunjunZhang/ema-pg
- Abstract(参考訳): 強化学習(RL)により、大規模言語モデル(LLM)はますます複雑な推論やエージェントの振る舞いを習得できるようになった。
本研究では, LLMのポリシー勾配アルゴリズムを改善するための2つの簡単な手法を提案する。
まず、RL中の固定アンカーポリシーを、深層Q-ラーニングにおけるターゲットネットワークに似た指数移動平均(EMA)に置き換える。
第2に、正確なKLとサンプルKLとのフレキシブルな補間を可能にするTop-k KL推定器を導入する。
我々は、EMAアンカーの安定性条件を導出し、その上、トップk KL推定器は、任意の k において、偏りのない KL 値と偏りのない勾配の両方を得るとともに、正確な KL の利点をもたらすことを示した。
GRPOと組み合わせると、2つの技術(EMA-PG)は大きな性能向上をもたらす。
数学の推論では、R1で蒸留したQwen-1.5Bがオリンピアドベンチで53.9%に達するのに対し、GRPOでは50.8%となる。
エージェントRLドメインでは、Qwen-3Bベースで、EMA-PGは検索エンジンによる7つのQ&Aデータセットの平均33.3%改善し、2WikiMultiHopQAでは29.7%$\rightarrowが44.1%、HotpotQAでは27.4%$\rightarrowが40.1%となった。
全体として、EMA-PG は LLM に対する RL のスケーリングに対する単純で原則的で強力なアプローチであることを示す。
コード:https://github.com/LunjunZhang/ema-pg
関連論文リスト
- Achieving Logarithmic Regret in KL-Regularized Zero-Sum Markov Games [53.447182734351]
Reverse Kullback-Leibler (KL) 正則化の下で, サンプル効率の向上を実現するアルゴリズムを開発し, 解析する。
我々は,2プレイヤーゼロサムマトリクスゲームとマルコフゲームの両方について検討する:マトリックスゲームでは,楽観的なボーナス付きベストレスポンスサンプリングに基づくアルゴリズムOMGを提案し,アルゴリズムSOMGを用いてマルコフゲームに拡張する。
両アルゴリズムは、標準の$widetildemathcalO(sqrtT)に加えて、KL正規化強度$beta$と共に逆スケールする$T$の対数後悔を実現する。
論文 参考訳(メタデータ) (2025-10-15T01:00:54Z) - KL-Regularised Q-Learning: A Token-level Action-Value perspective on Online RLHF [1.8665975431697432]
我々は、LM-RLHF設定のための新しいアクション値RL法、KL正規化Q-Learning(KLQ)を開発した。
本手法は, 動機が全く異なるにもかかわらず, 特定の意味でのPPOと等価であることを示す。
我々は、KLQがLM-RLHF目標の最適化においてPPOと対決し、LLM-as-a-judge評価においてPPOに対して一貫した勝利率を達成することを示した。
論文 参考訳(メタデータ) (2025-08-23T11:50:54Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [59.11784194183928]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
規則化されたポリシーグラディエント(RPG)ビューは、広く使われている$k_3$ペナルティが、正確には非正規化されたKLであることを示している。
RPG-REINFORCE with RPG-Style Clipは、DAPOよりも最大6ドル以上の絶対パーセンテージポイントの精度を向上させる。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - Generalized Munchausen Reinforcement Learning using Tsallis KL Divergence [22.400759435696102]
我々は、定義に$q$-logarithmを使用する一般化KL発散(Tsallis KL発散)について検討する。
我々は、Tsallis KLで学んだポリシーのタイプを特徴付け、$q > 1$が有益である場合に動機付ける。
この一般化されたMVI($q$)は、35のアタリゲームにおいて標準MVI($q = 1$)よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2023-01-27T00:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。