論文の概要: EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control
- arxiv url: http://arxiv.org/abs/2511.15248v1
- Date: Wed, 19 Nov 2025 09:06:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.712095
- Title: EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control
- Title(参考訳): EntroPIC: 相対的内接制御によるエントロピー安定化によるLCMの安定的長期訓練に向けて
- Authors: Kai Yang, Xin Xu, Yangkun Chen, Weijie Liu, Jiafei Lyu, Zichuan Lin, Deheng Ye, Saiyong Yang,
- Abstract要約: 大規模言語モデル(LLM)の長期トレーニングでは、モデルが最適でない動作に崩壊しないように、安定した探索を行う必要がある。
既存の強化学習手法は、正と負のサンプルが混在するトレーニングプロセスであるため、適切なエントロピーレベルを維持するのに苦労する。
本稿では, 損失係数を動的に調整することで, 正および負のサンプルの影響を適応的に調整する新しい手法であるProportional-Integral Control (EntroPIC) によるエントロピー安定化を提案する。
- 参考スコア(独自算出の注目度): 27.90201003466107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term training of large language models (LLMs) requires maintaining stable exploration to prevent the model from collapsing into sub-optimal behaviors. Entropy is crucial in this context, as it controls exploration and helps avoid premature convergence to sub-optimal solutions. However, existing reinforcement learning methods struggle to maintain an appropriate level of entropy, as the training process involves a mix of positive and negative samples, each affecting entropy in different ways across steps. To address this, we propose Entropy stablilization via Proportional-Integral Control (EntroPIC), a novel method that adaptively adjusts the influence of positive and negative samples by dynamically tuning their loss coefficients. This approach stabilizes entropy throughout training, ensuring efficient exploration and steady progress. We provide a comprehensive theoretical analysis for both on-policy and off-policy learning settings, demonstrating that EntroPIC is effective at controlling entropy in large-scale LLM training. Experimental results show that our method successfully maintains desired entropy levels, enabling stable and optimal RL training for LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の長期トレーニングでは、モデルが最適でない動作に崩壊しないように、安定した探索を行う必要がある。
この文脈ではエントロピーが重要であり、探索を制御し、準最適解への早めの収束を避けるのに役立つ。
しかし、既存の強化学習法は、トレーニングプロセスには正と負のサンプルが混在し、それぞれがステップ毎に異なるエントロピーに影響を与えるため、適切なエントロピーレベルを維持するのに苦労する。
そこで本研究では,損失係数を動的に調整することで,正および負のサンプルの影響を適応的に調整する新しい手法であるProportional-Integral Control (EntroPIC) によるエントロピー安定化を提案する。
このアプローチは訓練を通してエントロピーを安定させ、効率的な探索と安定した進捗を確保する。
大規模LLMトレーニングにおいて,EntroPICがエントロピー制御に有効であることを示す。
実験の結果,提案手法は所望のエントロピーレベルを維持することができ,LLMの安定かつ最適なRLトレーニングを可能にした。
関連論文リスト
- Reasoning in Diffusion Large Language Models is Concentrated in Dynamic Confusion Zones [3.7312377768685714]
本稿では,RL の目標,報酬,計算予算を変更することなく,高平均ステップへの勾配更新を動的に再配置する軽量なステップ選択戦略である Adaptive Trajectory Policy Optimization (ATPO) を提案する。
ATPOは、dLLM RLを進める上で、軌道動力学の活用が鍵であることを示し、ベンチマーク全体にわたって精度とトレーニング安定性の推論においてかなりの向上をもたらす。
論文 参考訳(メタデータ) (2025-11-19T07:59:34Z) - Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning [15.529826552402769]
スパース報酬を伴うマルチターン環境におけるLLMエージェントの訓練は、強化学習の根本的な課題である。
この設定に特有のクリティカルな障害モード、すなわち探索・探索カスケードの障害を特定します。
本稿では,この障害サイクルを3つの相乗的メカニズムによって破る一般的なフレームワークであるエントロピー規則化政策最適化(EPO)を提案する。
論文 参考訳(メタデータ) (2025-09-26T16:51:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。