論文の概要: ESPO: Entropy Importance Sampling Policy Optimization
- arxiv url: http://arxiv.org/abs/2512.00499v1
- Date: Sat, 29 Nov 2025 14:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.269883
- Title: ESPO: Entropy Importance Sampling Policy Optimization
- Title(参考訳): ESPO:Entropy Importance Smpling Policy Optimization
- Authors: Yuepeng Sheng, Yuwei Huang, Shuman Liu, Haibo Zhang, Anxiang Zeng,
- Abstract要約: エントロピー重要度サンプリングポリシー最適化は、きめ細かい制御とトレーニングの安定性を調整します。
ESPOは予測エントロピーに基づいて配列をグループに分解する。
数学的推論ベンチマークの実験は、ESPOが収束と最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 7.2000276975120014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) reinforcement learning has increasingly relied on group-based policy optimization frameworks, such as GRPO and GSPO, to achieve stable fine-tuning at scale. However, a fundamental trade-off persists between optimization granularity and training stability. While GSPO improves robustness via sequence-level optimization, its monolithic treatment of sequences introduces severe inefficiencies: its conservative clipping mechanism indiscriminately discards valid training samples-a phenomenon we term gradient underutilization-and its uniform credit assignment fails to capture the heterogeneous contributions of critical reasoning steps. In this work, we propose Entropy Importance Sampling Policy Optimization (ESPO), a novel framework that reconciles fine-grained control with training stability. ESPO decomposes sequences into groups based on predictive entropy, enabling (1) Entropy-driven Importance Sampling to capture intra-sequence heterogeneity, and (2) Entropy-adaptive Clipping to dynamically allocate trust regions based on model uncertainty. Extensive experiments on mathematical reasoning benchmarks demonstrate that ESPO not only accelerates convergence but also achieves state-of-the-art performance, notably improving accuracy on the challenging HMMT benchmark from 4.4% to 13.13%.
- Abstract(参考訳): 大規模言語モデル(LLM)強化学習は、GRPOやGSPOといったグループベースのポリシー最適化フレームワークに依存して、大規模で安定した微調整を実現している。
しかしながら、最適化の粒度とトレーニングの安定性の間には、基本的なトレードオフが持続する。
GSPOは、シーケンスレベルの最適化によってロバスト性を改善するが、そのモノリシックなシーケンス処理は深刻な非効率をもたらす: その保守的なクリッピング機構は、有効なトレーニングサンプルを無差別に破棄する。
本研究では,訓練安定性と微粒化制御を両立させる新しいフレームワークであるエントロピー重要サンプリングポリシー最適化(ESPO)を提案する。
ESPOは予測エントロピーに基づくグループに配列を分解し、(1)エントロピー駆動のImportance Smplingでシーケンス内不均一性を捕捉し、(2)エントロピー適応クリッピングによりモデル不確実性に基づいて信頼領域を動的に割り当てる。
数学的推論ベンチマークに関する大規模な実験により、ESPOは収束を加速するだけでなく、最先端のパフォーマンスも達成し、特に挑戦的なHMMTベンチマークの精度は4.4%から13.13%に向上した。
関連論文リスト
- Soft Adaptive Policy Optimization [67.61886077470528]
強化学習は、大規模言語モデルの推論能力を高める上で、ますます重要な役割を担っている。
GSPOやGRPOのような既存のグループベースのポリシー最適化手法は、ハードクリッピングによってこの問題を軽減する。
ハードクリッピングをスムーズな温度制御ゲートに置き換えるソフト適応ポリシー最適化(SAPO)を提案する。
論文 参考訳(メタデータ) (2025-11-25T14:25:19Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Reinforcement Fine-Tuning of Flow-Matching Policies for Vision-Language-Action Models [7.316631310935769]
VLA(Vision-Language-Action)モデルは、大規模なデモンストレーションを活用することで、強力な一般化を示している。
本研究では,FPOアルゴリズムを提案する。FPOアルゴリズムは,条件付きフローマッチングの目的に対して,サンプルごとの変化を生かして,重要サンプリングを再構築する。
LIBEROベンチマークのFPOとALOHAシミュレーションタスクを、教師付き、嗜好的、拡散的、自己回帰的オンラインRLに対して評価する。
論文 参考訳(メタデータ) (2025-10-11T03:11:18Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Towards Initialization-Agnostic Clustering with Iterative Adaptive Resonance Theory [8.312275539092466]
Iterative Refinement Adaptive Resonance Theory (IR-ART)は、3つの重要な位相を統合された反復的フレームワークに統合する。
IR-ARTは、ファジィARTのパラメータ単純性を保ちながら、準最適警戒パラメータ値に対する耐性を向上させる。
ケーススタディは、反復的な改善を通じてアルゴリズムの自己最適化能力を視覚的に確認する。
論文 参考訳(メタデータ) (2025-05-07T14:12:39Z) - Unified Enhancement of the Generalization and Robustness of Language Models via Bi-Stage Optimization [2.502393972789905]
本稿では,LMの一般化とロバスト性の両方を均一に向上する二段階最適化フレームワークを提案する。
提案手法は,従来の手法と比較して,LMの一般化とロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-03-19T13:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。