論文の概要: ERPO: Token-Level Entropy-Regulated Policy Optimization for Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2603.28204v1
- Date: Mon, 30 Mar 2026 09:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.319977
- Title: ERPO: Token-Level Entropy-Regulated Policy Optimization for Large Reasoning Models
- Title(参考訳): ERPO:大規模共振モデルのためのToken-Level Entropy-Regulated Policy Optimization
- Authors: Song Yu, Li Li,
- Abstract要約: 本稿では,最適化の焦点を粗いシーケンスからきめ細かいトークンダイナミクスに移行するエントロピー制御ポリシ最適化(ERPO)を提案する。
ERPOは推論精度を高めるが、より簡潔で頑健な導出経路を得る。
- 参考スコア(独自算出の注目度): 3.823216582055036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from verifiable rewards (RLVR) has significantly advanced the reasoning capabilities of large language models. However, standard Group Relative Policy Optimization (GRPO) typically assigns a uniform, sequence-level advantage to all tokens, thereby overlooking the intrinsic information heterogeneity along reasoning chains. We show that this coarse-grained credit assignment leads to premature entropy collapse and encourages the model to generate redundant, low-quality reasoning paths. Through systematic empirical analysis, we identify Critical Decision Pivots (CDPs): transient high-entropy states where the policy's trajectory is most sensitive to perturbations. These pivots represent the "forks in the road" where effective multi-path exploration is most crucial yet often suppressed by uniform advantage signals. Building on these insights, we propose Entropy-Regulated Policy Optimization (ERPO), which transitions the optimization focus from coarse sequences to fine-grained token dynamics. ERPO introduces three synergistic components: (i) Entropy-aware Gating, which adaptively amplifies exploration at CDPs to facilitate diverse path discovery; (ii) Bucket-based Implicit Normalization, which mitigates difficulty bias by aligning token progress windows; and (iii) Result-anchored Advantage Synthesis, which re-weights token-level signals via outcome-driven anchors. Extensive experiments on competitive mathematical benchmarks (e.g., MATH, AIME) demonstrate that ERPO significantly outperforms GRPO. Notably, ERPO not only boosts reasoning accuracy but also yields significantly more concise and robust derivation paths, establishing a new efficiency-accuracy frontier for large reasoning models.
- Abstract(参考訳): 検証可能な報酬(RLVR)からの強化学習は、大規模言語モデルの推論能力を大幅に向上させた。
しかし、標準グループ相対ポリシー最適化(GRPO)は典型的には全てのトークンに一様でシーケンスレベルの利点を割り当て、従って推論連鎖に沿った固有の情報不均一性を見渡す。
この粗粒なクレジット割り当ては、早期のエントロピー崩壊を招き、冗長で低品質な推論経路を生成するようモデルに促すことを示す。
系統的な実証分析により,政策の軌道が摂動に最も敏感な過渡的高エントロピー状態 (CDP) を同定した。
これらのピボットは、効果的なマルチパス探索が最も重要であり、均一な有利な信号によってしばしば抑制される「道路のフォーク」を表している。
これらの知見に基づいて、粗いシーケンスからきめ細かいトークンダイナミクスへ最適化焦点を移行するエントロピー制御政策最適化(ERPO)を提案する。
ERPOは3つの相乗的コンポーネントを導入している。
一 多様な経路発見を促進するため、CDPにおける探索を適応的に増幅するエントロピー対応ゲーティング
(二)トークン進行窓の整列による難易度バイアスを軽減するバケットベースインプリシット正規化
三 結果アンカによるトークンレベルの信号を再重み付けする結果アンカ付きアドバンテージ合成
競争力のある数学ベンチマーク(例えば、MATH、AIME)に関する大規模な実験は、ERPOがGRPOを著しく上回ることを示した。
特に、ERPOは推論精度を向上するだけでなく、より簡潔で堅牢な導出経路をもたらし、大きな推論モデルのための新しい効率-精度フロンティアを確立する。
関連論文リスト
- P^2O: Joint Policy and Prompt Optimization [74.45293488495592]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
プロンプト最適化とポリシー最適化を相乗化する新しいフレームワークであるP2Oを提案する。
論文 参考訳(メタデータ) (2026-03-23T12:08:47Z) - Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities [10.235183326885794]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。
我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。
提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:06:55Z) - Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。
我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。
OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2026-01-12T10:48:02Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - Beyond High-Entropy Exploration: Correctness-Aware Low-Entropy Segment-Based Advantage Shaping for Reasoning LLMs [6.948242693954442]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力向上のための中心的なアプローチとなっている。
低エントロピーセグメントに対してきめ細かな優位変調を行う,正当性を考慮した強化フレームワークであるLESSを提案する。
論文 参考訳(メタデータ) (2025-11-30T14:19:36Z) - ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping [54.37497695483689]
本稿では,タスクの難易度に基づいて探索作業を動的に割り当てる適応推論のための統合フレームワークであるARESを提案する。
単一トークンエントロピーはノイズが多いが,高いウィンドウエントロピー(HWE)トークンは推論クリティカルな瞬間を確実に捉えることができる。
In the Adaptive Cold-Start stage, we curate multimodal and textual data paired with reasoning traces of length proportional to problem difficulty。
第2段階では,HWEトークンを探索トリガとする適応エントロピーポリシー最適化(AEPO)を開発する。
論文 参考訳(メタデータ) (2025-10-09T17:03:28Z) - Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。
エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-09-28T16:33:07Z) - GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy [5.691990020513277]
本稿では,2つの新しいアルゴリズムによる報酬の微粒化を促進するメカニズムである動的エントロピー重み付けを提案する。
報酬形成のための政策のエントロピーを再取得することで、我々は真にトークン単位の信用割り当てを達成できる。
論文 参考訳(メタデータ) (2025-08-06T11:42:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。