論文の概要: On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2602.03392v1
- Date: Tue, 03 Feb 2026 11:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.40958
- Title: On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models
- Title(参考訳): 大規模言語モデルの強化微細チューニングにおけるエントロピーダイナミクスについて
- Authors: Shumin Wang, Yuexiang Xie, Wenhao Zhang, Yuchang Sun, Yanxi Chen, Yaliang Li, Yanyong Zhang,
- Abstract要約: エントロピーは、大きな言語モデルによって生成される出力の多様性を測定するための重要な指標となる。
近年の研究では、強化微調整における探究と利用のバランスを改善するために、エントロピーの監視と調整に重点を置いている。
- 参考スコア(独自算出の注目度): 54.61810451777578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entropy serves as a critical metric for measuring the diversity of outputs generated by large language models (LLMs), providing valuable insights into their exploration capabilities. While recent studies increasingly focus on monitoring and adjusting entropy to better balance exploration and exploitation in reinforcement fine-tuning (RFT), a principled understanding of entropy dynamics during this process is yet to be thoroughly investigated. In this paper, we establish a theoretical framework for analyzing the entropy dynamics during the RFT process, which begins with a discriminant expression that quantifies entropy change under a single logit update. This foundation enables the derivation of a first-order expression for entropy change, which can be further extended to the update formula of Group Relative Policy Optimization (GRPO). The corollaries and insights drawn from the theoretical analysis inspire the design of entropy control methods, and also offer a unified lens for interpreting various entropy-based methods in existing studies. We provide empirical evidence to support the main conclusions of our analysis and demonstrate the effectiveness of the derived entropy-discriminator clipping methods. This study yields novel insights into RFT training dynamics, providing theoretical support and practical strategies for optimizing the exploration-exploitation balance during LLM fine-tuning.
- Abstract(参考訳): エントロピーは、大きな言語モデル(LLM)が生成する出力の多様性を測定するための重要な指標となり、その探索能力に関する貴重な洞察を提供する。
近年の研究では、強化微調整(RFT)における探究と搾取のバランスを改善するためにエントロピーの監視と調整に焦点が当てられているが、この過程におけるエントロピー力学の原理的理解については、まだ完全には研究されていない。
本稿では,RFTプロセス中のエントロピーダイナミクスを解析するための理論的枠組みを構築し,単一のロジット更新の下でエントロピー変化を定量化する判別式から始める。
この基礎は、エントロピー変化のための一階述語表現の導出を可能にし、グループ相対政策最適化(GRPO)の更新公式にさらに拡張することができる。
理論解析から引き出された輪郭と洞察はエントロピー制御法の設計を刺激し、既存の研究で様々なエントロピー法を解釈するための統一レンズも提供する。
分析の主な結論を裏付ける実証的証拠を提供し, 導出エントロピー識別器クリッピング法の有効性を実証する。
本研究は,LLM微調整時の探査・探査バランスを最適化するための理論的支援と実践的戦略を提供するため,RFTトレーニングダイナミクスに関する新たな知見を得た。
関連論文リスト
- ReLaX: Reasoning with Latent Exploration for Large Reasoning Models [11.506415241741601]
我々は、トークン生成の根底にある潜在力学が、ステアリングポリシー最適化のためのよりリッチな計算構造を符号化していると論じる。
ReLaX(Reasoning with Latent eXploration)を提案する。
論文 参考訳(メタデータ) (2025-12-08T13:48:33Z) - The Role of Entropy in Visual Grounding: Analysis and Optimization [69.51909526456606]
本稿では,効率的なエントロピー制御のための解釈可能なアルゴリズムであるECVGPO(Entropy Control Visual Grounding Policy Optimization)を紹介する。
実験によると、ECVGPOは様々なベンチマークやモデルで広範囲に改善されている。
論文 参考訳(メタデータ) (2025-12-07T08:33:55Z) - Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - Discovering deposition process regimes: leveraging unsupervised learning for process insights, surrogate modeling, and sensitivity analysis [0.1558630944877332]
本研究は,化学気相沈着(CVD)反応器の堆積過程を解明するための包括的アプローチを導入する。
我々の方法論は、プロセスの異なる状態に対応する"アウトカム"のクラスタを特定するために、詳細なCFDモデルによって導かれるプロセス結果に依存しています。
この現象はArrheniusプロット解析により実験的に検証され,本手法の有効性が確認された。
論文 参考訳(メタデータ) (2024-05-24T14:10:22Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Entropy Regularized Reinforcement Learning Using Large Deviation Theory [3.058685580689605]
本稿では,エントロピー規則化RLのマッピングと非平衡統計力学の研究を行う。
大偏差理論からのアプローチを適用し、最適政策と最適力学の正確な解析結果を導出する。
その結果、エントロピー規則化RLの新たな解析および計算フレームワークが実現され、シミュレーションによって検証される。
論文 参考訳(メタデータ) (2021-06-07T19:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。