論文の概要: Entropy-Gated Selective Policy Optimization:Token-Level Gradient Allocation for Hybrid Training of Large Language Models
- arxiv url: http://arxiv.org/abs/2602.03309v1
- Date: Tue, 03 Feb 2026 09:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.363257
- Title: Entropy-Gated Selective Policy Optimization:Token-Level Gradient Allocation for Hybrid Training of Large Language Models
- Title(参考訳): Entropy-Gated Selective Policy Optimization:Token-Level Gradient Allocation for Hybrid Training of Large Language Models
- Authors: Yuelin Hu, Zhengxue Cheng, Wei Liu, Li Song,
- Abstract要約: 大規模言語モデルのハイブリッドトレーニング手法は、専門家によるデモンストレーションにおける教師付き微調整(SFT)とモデルロールアウトにおける強化学習(RL)を組み合わせる。
本稿では,トークンレベル勾配変調によるサンプルレベル混合を拡張する3段階フレームワークであるEntropy Gated Selective Policy Optimization (EGSPO)を提案する。
EGSPOは数学的推論ベンチマークにおいて一貫した改善を達成し、AIMEでは3.8%、CHORD phiベースラインでは2.9%、計算オーバーヘッドは3.4%に留まった。
- 参考スコア(独自算出の注目度): 18.084251607403406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hybrid training methods for large language models combine supervised fine tuning (SFT) on expert demonstrations with reinforcement learning (RL) on model rollouts, typically at the sample level. We propose Entropy Gated Selective Policy Optimization (EGSPO), a three stage framework that extends sample level mixing with token level gradient modulation. Stage 1, SFT expert learning, establishes a reliable warm up policy using expert demonstrations with a pure SFT loss. Stage 2, RL rollout generation, samples trajectories from the current policy and computes per token predictive entropy. Stage 3, the EGSPO mechanism, applies entropy gated gradient allocation: a predictive entropy module routes high entropy tokens to full PPO updates to encourage exploration, and low entropy tokens to attenuated PPO updates to reduce variance and preserve knowledge. Critically, both branches incorporate the advantage function A_t, ensuring that incorrect trajectories receive consistent negative learning signals and preventing reinforcement of confident errors. EGSPO achieves consistent improvements on mathematical reasoning benchmarks, with gains of 3.8 percent on AIME and 2.9 percent on MATH over the CHORD phi baseline, while incurring only 3.4 percent additional computational overhead.
- Abstract(参考訳): 大規模言語モデルのハイブリッドトレーニング手法は、専門家によるデモンストレーションにおける教師付き微調整(SFT)とモデルロールアウトにおける強化学習(RL)を組み合わせる。
本稿では,トークンレベル勾配変調によるサンプルレベル混合を拡張する3段階フレームワークであるEntropy Gated Selective Policy Optimization (EGSPO)を提案する。
ステージ1 SFTの専門家学習は、純粋なSFT損失を伴う専門家のデモンストレーションを用いて、信頼性の高いウォームアップポリシーを確立する。
ステージ2 RLロールアウト生成、現在のポリシーからのサンプルトラジェクトリ、トークン予測エントロピー毎の計算。
予測エントロピーモジュールは、高エントロピートークンを完全なPPO更新にルーティングして探索を奨励し、低エントロピートークンは、分散を減らし知識を保存するためにPPO更新を減衰させる。
批判的に、両枝は有利関数A_tを組み込んで、誤った軌道が一貫した負の学習信号を受信し、自信のある誤りの強化を防止する。
EGSPOは数学的推論ベンチマークにおいて一貫した改善を達成し、AIMEでは3.8%、CHORD phiベースラインでは2.9%、計算オーバーヘッドは3.4%に留まった。
関連論文リスト
- GDEPO: Group Dual-dynamic and Equal-right-advantage Policy Optimization with Enhanced Training Data Utilization for Sample-Constrained Reinforcement Learning [14.111530312590531]
ATP(Automated Theorem Proving)は人工知能(AI)の基本課題である
我々はGDEPO(Group Dual-dynamic and Equal-right-Advantage Policy Optimization)を提案する。
GDEPOには3つのコアメカニズムがある: 1) 有効証明が見つかるまで無効なバッチを再サンプリングする動的追加サンプリング、2) 優位関数の符号をその大きさ(補助的な報酬によって変調される)から切り離して安定かつ正しいポリシー更新を保証する、3) 動的追加イテレーション、そして、最初は失敗するが、最終的にはサンプルを成功させ、挑戦的なケースでの学習を加速する。
論文 参考訳(メタデータ) (2026-01-11T07:34:41Z) - ESPO: Entropy Importance Sampling Policy Optimization [7.2000276975120014]
エントロピー重要度サンプリングポリシー最適化は、きめ細かい制御とトレーニングの安定性を調整します。
ESPOは予測エントロピーに基づいて配列をグループに分解する。
数学的推論ベンチマークの実験は、ESPOが収束と最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-11-29T14:09:38Z) - From Exploration to Exploitation: A Two-Stage Entropy RLVR Approach for Noise-Tolerant MLLM Training [38.8378349968766]
Reinforcement Learning with Verifiable Rewards (RLVR) は高品質なラベル付きデータに依存している。
既存の教師なしRLVR法は、純粋なエントロピー最小化を含む、誤ったラベルに過度に適合する。
RLVRのための2段階のトークンレベルのエントロピー最適化手法を提案する。
論文 参考訳(メタデータ) (2025-11-11T01:42:37Z) - Mind Your Entropy: From Maximum Entropy to Trajectory Entropy-Constrained RL [56.085103402298905]
本稿では,この2つの課題に対処する軌道エントロピー制約強化学習(TECRL)フレームワークを提案する。
このフレームワーク内では、まず報酬とエントロピーに関連する2つのQ-関数を個別に学習し、温度更新の影響を受けないクリーンで安定した値ターゲットを確保する。
我々は,3つの改良を加えて,最先端の分散型ソフトアクター批判を拡張して,現実的な非政治的アルゴリズムDSAC-Eを開発した。
論文 参考訳(メタデータ) (2025-10-25T09:17:47Z) - Agentic Entropy-Balanced Policy Optimization [114.90524574220764]
エージェント強化学習(Agentic RL)は,Webエージェントの多ターン,長期ツール利用能力の活性化に大きく貢献している。
RLアルゴリズムはエントロピーの誘導の下で、高不確実性ツールコールステップを自律的に探索するが、エントロピー信号への過度な依存は、さらなる制約を課す可能性がある。
本稿では,エージェント・エントロピー・バランサード・ポリシー最適化(AEPO, Agentic Entropy-Balanced Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-10-16T10:40:52Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - CE-GPPO: Coordinating Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning [28.02073546326571]
政策エントロピーは、訓練中の探検と搾取のバランスを反映している。
既存の方法は、クリッピング機構により、低確率トークンから貴重な勾配信号を捨てる。
textbfGradient textbfPreserving textbfPolicy textbfOptimization を用いて textbfCoordinating textbfEntropy を提案する。
論文 参考訳(メタデータ) (2025-09-25T03:22:04Z) - From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature [38.46122853450324]
既存のアルゴリズムは全てのトークンに一様最適化を適用し、推論プロセスにおける異なる役割を無視している。
本稿では,トークンエントロピーに基づく最適化を動的に適用するトークン認識アルゴリズムであるヘテロジニアス適応ポリシー最適化(HAPO)を紹介する。
論文 参考訳(メタデータ) (2025-09-20T09:30:25Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning [41.83677588934301]
負のサンプル拡張(BCPG-NSA)による行動制約付きポリシーのグラディエントを提案する。
BCPG-NSA は,1) サンプルセグメンテーション,2) LLM と PRM を併用した合意に基づくステップ正当性評価,3) 正のステップを負のサンプル内で効果的にマイニングするNSA とのポリシー最適化の3段階を含む,詳細なオフラインフレームワークである。
実験の結果、BCPG-NSAは、同じトレーニングデータセットを使用して、いくつかの挑戦的な数学/コーディング推論ベンチマークのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-05-20T14:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。