論文の概要: Addressing Performance Saturation for LLM RL via Precise Entropy Curve Control
- arxiv url: http://arxiv.org/abs/2604.26326v1
- Date: Wed, 29 Apr 2026 06:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.272379
- Title: Addressing Performance Saturation for LLM RL via Precise Entropy Curve Control
- Title(参考訳): 高精度エントロピー曲線制御によるLLM RLの性能飽和
- Authors: Bolian Li, Yifan Wang, Yi Ding, Anamika Lochab, Ananth Grama, Ruqi Zhang,
- Abstract要約: エントロクラフト(英: Entrocraft)は、利点分布をバイアスすることで、ユーザのカスタマイズしたエントロピースケジュールを実現する拒絶サンプリング手法である。
性能飽和に対処し、一般化、出力の多様性、長期トレーニングを大幅に改善する。
これは、4Bモデルが8Bベースラインを上回り、プレート化前の最大4倍の改善を持続し、ベースラインを50%上回るパス@Kを上昇させる。
- 参考スコア(独自算出の注目度): 32.47019443141117
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reinforcement learning (RL) has unlocked complex reasoning abilities in large language models (LLMs). However, most RL algorithms suffer from performance saturation, preventing further gains as RL training scales. This problem can be characterized by the collapse of entropy, a key diagnostic for exploration in RL. Existing attempts have tried to prevent entropy collapse through regularization or clipping, but their resulting entropy curves often exhibit instability in the long term, which hinders performance gains. In this paper, we introduce Entrocraft, a simple rejection-sampling approach that realizes any user-customized entropy schedule by biasing the advantage distributions. Entrocraft requires no objective regularization and is advantage-estimator-agnostic. Theoretically, we relate per-step entropy change to the advantage distribution under minimal assumptions, which explains the behavior of existing RL and entropy-preserving methods. Entrocraft also enables a systematic study of entropy schedules, where we find that linear annealing, which starts high and decays to a slightly lower target, performs best. Empirically, Entrocraft addresses performance saturation, significantly improving generalization, output diversity, and long-term training. It enables a 4B model to outperform an 8B baseline, sustains improvement for up to 4x longer before plateauing, and raises pass@K by 50% over the baseline.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)における複雑な推論能力を解放した。
しかし、ほとんどのRLアルゴリズムは性能飽和に悩まされており、RLのトレーニングスケールが大きくなるにつれてさらなる増加を妨げている。
この問題は、RLにおける探索の鍵となる診断であるエントロピーの崩壊によって特徴づけられる。
既存の試みでは、正規化やクリッピングによるエントロピーの崩壊を防ごうとしているが、結果として生じるエントロピー曲線は長期的には不安定であり、パフォーマンスの向上を妨げている。
本稿では,エバンス分布に偏りを生じさせることで,ユーザのカスタマイズしたエントロピースケジュールを実現する,シンプルなリジェクションサンプリング手法であるEntrocraftを紹介する。
エントロクラフトは客観的な正規化を必要としない。
理論的には、ステップごとのエントロピー変化を最小の仮定の下での利点分布に関連付け、既存のRLとエントロピー保存法の挙動を説明する。
エントロクラフトはまたエントロピーのスケジュールの体系的な研究を可能にし、そこでは線形アニールが始まり、わずかに低い目標に崩壊する。
経験的に、Entrocraftはパフォーマンス飽和に対処し、一般化、出力の多様性、長期トレーニングを大幅に改善した。
これは、4Bモデルが8Bベースラインを上回り、プレート化前の最大4倍の改善を持続し、ベースラインを50%上回るパス@Kを上昇させる。
関連論文リスト
- The Optimal Token Baseline: Variance Reduction for Long-Horizon LLM-RL [39.23942538769713]
大規模言語モデルのための強化学習(LLMs)は、勾配のばらつきが爆発的に広がるため、長い水平タスクのトレーニング崩壊に悩まされることが多い。
我々は、最適トークンベースライン(OTB)を第一原理から導出し、勾配更新が累積勾配ノルムに逆向きに重み付けされるべきであることを証明した。
提案手法はトレーニングの安定性を達成し,N=32$の大規模グループサイズとの性能を一致させ,シングルターンおよびツール統合推論タスクにおけるトークン消費量を65%以上削減する。
論文 参考訳(メタデータ) (2026-02-06T03:16:04Z) - Data-regularized Reinforcement Learning for Diffusion Models at Scale [99.01056178660538]
データ正規化拡散強化学習(Data-regularized Diffusion Reinforcement Learning, DDRL)は, フォワードKLの分散を利用して, 政策を非政治データ分布に固定する新しいフレームワークである。
100万時間以上のGPU実験と1万回の二重盲検評価により、DDRLは、RLで見られる報酬ハックを緩和しながら、報酬を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-12-03T23:45:07Z) - Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - BroRL: Scaling Reinforcement Learning via Broadened Exploration [88.69554867685243]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルにおいて複雑な推論能力を解き放つ鍵となる要素として登場した。
最近のProRLは、トレーニングステップの数を増やすことで、RLのスケーリングを約束している。
RL, BroR-Lineasing the followingary paradigm for scaling RL, BroR-Lincreasing the rollouts per example to hundreds。
論文 参考訳(メタデータ) (2025-10-01T17:59:02Z) - Clip-Low Increases Entropy and Clip-High Decreases Entropy in Reinforcement Learning of Large Language Models [29.822717720666134]
PPOとGRPOのクリッピング機構がエントロピーのバイアスを引き起こすことを示す。
より積極的なクリップロー値では、RLVRトレーニングにおいてエントロピーを増加させ、探索を促進し、最終的にエントロピー崩壊を防ぐことができる。
論文 参考訳(メタデータ) (2025-09-30T11:33:15Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - On Entropy Control in LLM-RL Algorithms [10.71946318944523]
LLM-RL設定におけるエントロピーボーナスの問題について検討した。
自動調整係数を持つ新しいクランプ型エントロピーボーナスを利用するエントロピー制御法であるAEntを提案する。
AEntは、異なるベースモデルとデータセットの下で数学推論タスクでテストされており、AEntがベースラインを一貫して上回ることが観察されている。
論文 参考訳(メタデータ) (2025-09-03T17:23:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。