論文の概要: Entropy Polarity in Reinforcement Fine-Tuning: Direction, Asymmetry, and Control
- arxiv url: http://arxiv.org/abs/2605.11775v2
- Date: Thu, 14 May 2026 14:02:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 15:19:49.892463
- Title: Entropy Polarity in Reinforcement Fine-Tuning: Direction, Asymmetry, and Control
- Title(参考訳): 強化微細チューニングにおけるエントロピー極性:方向、非対称性、制御
- Authors: Jiazheng Zhang, Ziche Fu, Junrui Shen, Yunbin Zhao, Yunke Zhang, Zhiheng Xi, Long Ma, Chenxin An, Zhihao Zhang, Shichun Liu, Dingwei Zhu, Shihan Dou, Shaofan Liu, Han Li, Wiggin Zhou, Aiden Adams, Tao Gui, Fei Huang, Qi Zhang, Xuanjing Huang,
- Abstract要約: 実験的に、エントロピー極性はエントロピーの変化を確実に予測することを示した。
本稿では、両極性分岐を保護し、有利な再重み付けによるエントロピー制御を実装するPAPO(Polarity-Aware Policy Optimization)を提案する。
- 参考スコア(独自算出の注目度): 77.8471519867791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy entropy has emerged as a fundamental measure for understanding and controlling exploration in reinforcement learning with verifiable rewards (RLVR) for LLMs. However, existing entropy-aware methods mainly regulate entropy through global objectives, while the token-level mechanism by which sampled policy updates reshape policy entropy remains underexplored. In this work, we develop a theoretical framework of entropy mechanics in RLVR. Our analysis yields a first-order approximation of the entropy change, giving rise to entropy polarity, a signed token-level quantity that predicts how much a sampled update expands or contracts entropy. This analysis further reveals a structural asymmetry: reinforcing frequent high-probability tokens triggers contraction tendencies, whereas expansive tendencies typically require lower-probability samples or stronger distributional correction. Empirically, we show that entropy polarity reliably predicts entropy changes, and that positive and negative polarity branches play complementary roles in preserving exploration while strengthening exploitation. Building on these insights, we propose Polarity-Aware Policy Optimization (PAPO), which preserves both polarity branches and implements entropy control through advantage reweighting. With the empirical entropy trajectory as an online phase signal, PAPO adaptively reallocates optimization pressure between entropy-expanding and entropy-contracting updates. Experiments on mathematical reasoning and agentic benchmarks show that PAPO consistently outperforms competitive baselines, while delivering superior training efficiency and substantial reward improvements.
- Abstract(参考訳): 政策エントロピーは、LLMに対する検証可能な報酬(RLVR)を用いた強化学習における探索の理解と制御の基本的な手段として登場した。
しかし、既存のエントロピー対応手法は、主に大域的な目的を通じてエントロピーを規制するが、サンプル化されたポリシー更新によるトークンレベルメカニズムはいまだに解明されていない。
本研究では,RLVRにおけるエントロピー力学の理論的枠組みを開発する。
我々の分析では、エントロピー変化の1次近似が得られ、エントロピー極性(エントロピーがどれだけ拡大するか、あるいはエントロピーを収縮するかを予測する符号付きトークンレベルの量)が生じる。
頻繁な高確率トークンを補強すると収縮傾向が引き起こされるのに対し、膨張傾向は一般に低い確率サンプルまたはより強い分布補正を必要とする。
実験により,エントロピー極性はエントロピー変化を確実に予測し,正極性および負極性分岐がエクスプロイトの強化と探索の維持において相補的な役割を担っていることを示す。
これらの知見に基づいて、極性対応政策最適化(PAPO)を提案し、極性分岐とエントロピー制御の両方を有利な再重み付けにより実装する。
経験的エントロピー軌道をオンライン位相信号として、PAPOはエントロピー拡大とエントロピー縮小の間の最適化圧力を適応的に再配置する。
数学的推論とエージェントベンチマークの実験では、PAPOは競争ベースラインを一貫して上回り、優れたトレーニング効率と実質的な報酬改善を提供する。
関連論文リスト
- Understanding and Preventing Entropy Collapse in RLVR with On-Policy Entropy Flow Optimization [53.75029276020459]
本研究では,エントロピー変化への寄与に応じて,エントロピー増加とエントロピー減少の更新を再スケールする適応的エントロピーフローバランス機構を提案する。
6つの数学的推論ベンチマークの実験は、OPEFOがトレーニングと最終的なパフォーマンスを改善することを示した。
論文 参考訳(メタデータ) (2026-05-12T04:08:17Z) - On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models [54.61810451777578]
エントロピーは、大きな言語モデルによって生成される出力の多様性を測定するための重要な指標となる。
近年の研究では、強化微調整における探究と利用のバランスを改善するために、エントロピーの監視と調整に重点を置いている。
論文 参考訳(メタデータ) (2026-02-03T11:14:58Z) - Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - Mind Your Entropy: From Maximum Entropy to Trajectory Entropy-Constrained RL [56.085103402298905]
本稿では,この2つの課題に対処する軌道エントロピー制約強化学習(TECRL)フレームワークを提案する。
このフレームワーク内では、まず報酬とエントロピーに関連する2つのQ-関数を個別に学習し、温度更新の影響を受けないクリーンで安定した値ターゲットを確保する。
我々は,3つの改良を加えて,最先端の分散型ソフトアクター批判を拡張して,現実的な非政治的アルゴリズムDSAC-Eを開発した。
論文 参考訳(メタデータ) (2025-10-25T09:17:47Z) - Arbitrary Entropy Policy Optimization: Entropy Is Controllable in Reinforcement Fine-tuning [36.00460460149206]
本稿では, エントロピーボーナスをREINFORCEポリシー勾配に置き換えることで, エントロピー崩壊を解消するArbitrary Entropy Policy Optimization (AEPO)を提案する。
AEPOは、ポリシー勾配を正規化として、分布を正規化として、REINFORCEを正規化として統合し、最適化を歪ませることなく正確なエントロピー制御を可能にする。
論文 参考訳(メタデータ) (2025-10-09T12:24:08Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。