Fugu-MT 論文翻訳(概要): Selective-Advantage Entropy-Adaptive Horizon GRPO: Asymmetric Token-Level Discounting for Efficient Reinforcement Learning of Language Models

論文の概要: Selective-Advantage Entropy-Adaptive Horizon GRPO: Asymmetric Token-Level Discounting for Efficient Reinforcement Learning of Language Models

arxiv url: http://arxiv.org/abs/2606.05434v1
Date: Wed, 03 Jun 2026 20:57:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-05 22:39:44.400681
Title: Selective-Advantage Entropy-Adaptive Horizon GRPO: Asymmetric Token-Level Discounting for Efficient Reinforcement Learning of Language Models
Title（参考訳）: Selective-Advantage Entropy-Adaptive Horizon GRPO:Asymmetric Token-Level Discounting for Efficient Reinforcement Learning of Language Models
Authors: Chirag Chawla, Rohan Charudatt Salvi, Madhav S. Baidya,
Abstract要約: グループ相対政策最適化は、推論タスク上で言語モデルを整合させる効果的な強化学習アルゴリズムとして登場した。本稿では,Adaptive-Horizon GRPOとSelective-Advantage AH-GRPOの2つの補完拡張を導入する。解析の結果、非対称割引は正しい解の完全な勾配信号を保持し、エントロピー崩壊を防止し、トレーニングを著しく安定化させることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Group Relative Policy Optimisation (GRPO) has emerged as an effective reinforcement-learning algorithm for aligning language models on reasoning tasks, but it treats every token position and every sampled rollout symmetrically. We introduce two complementary extensions: (i) Adaptive-Horizon GRPO (AH-GRPO), which weights each token's policy gradient using a cumulative entropy-based discount that reduces the effective horizon when the model is uncertain, and (ii) Selective-Advantage AH-GRPO (SA-AH-GRPO), which applies this discounting only to negative-advantage rollouts, leaving positive-advantage, successful trajectories unattenuated. We evaluate standard GRPO with alpha = 0, AH-GRPO with alpha = 0.5, and SA-AH-GRPO with alpha = 0.5 on the GSM8K mathematical reasoning benchmark using both Qwen 2.5-1.5B-Instruct and Qwen 2.5-3B-Instruct fine-tuned with LoRA. On the 3B model, SA-AH-GRPO achieves Pass@1 = 0.858 at its peak at step 30 and maintains 0.846 at 180 steps, with training variance reduced to 0.0246, a 3.6 times reduction relative to GRPO while matching its peak accuracy. On the 1.5B model, SA-AH-GRPO achieves a peak Pass@1 of 0.686, improving over the zero-shot baseline of 0.637. Our analysis shows that asymmetric discounting preserves the full gradient signal on correct solutions, prevents entropy collapse, and substantially stabilises training, suggesting a principled inductive bias for reinforcement learning with verifiable rewards on structured generation tasks.
Abstract（参考訳）: グループ相対政策最適化(GRPO)は、推論タスク上で言語モデルを整列させる効果的な強化学習アルゴリズムとして登場したが、全てのトークン位置と全てのサンプルロールアウトを対称的に扱う。補足拡張を2つ導入する。一累積エントロピーに基づく割引を用いて各トークンの政策勾配を重み付けし、モデルが不確実であるときに有効地平線を減少させる適応水平GRPO(AH-GRPO) (II)選択的アドバンテージAH-GRPO(SA-AH-GRPO)は、この割引を負のアドバンテージロールアウトにのみ適用し、正のアドバンテージを残し、軌道変更を成功させる。我々は、Qwen 2.5-1.5B-Instruct と Qwen 2.5-3B-Instruct を用いて、α = 0.5 の標準 GRPO、α = 0.5 の AH-GRPO、α = 0.5 の SA-AH-GRPO を、GSM8K の数学的推論ベンチマーク上で評価した。 3Bモデルでは、SA-AH-GRPOはステップ30のピークでPass@1 = 0.858に達し、180ステップで0.846を維持し、トレーニング分散はGRPOと比較して0.0246に減少し、ピーク精度は3.6倍に低下する。 1.5Bモデルでは、SA-AH-GRPOはピークパス@1の0.686を達成し、ゼロショットベースラインの0.637よりも改善した。解析の結果,非対称ディスカウントは正解上の全勾配信号を保持し,エントロピー崩壊を防止し,トレーニングを著しく安定化させ,構造化された生成タスクに対する検証可能な報酬を伴う強化学習における帰納的バイアスを示唆している。

関連論文リスト

Advantage Collapse in Group Relative Policy Optimization: Diagnosis and Mitigation [13.272542054938258]
非効率な勾配でトレーニングバッチの割合を定量化する最初の指標であるAdvantage Collapse Rate (ACR)を導入する。次に、仮想報酬サンプルを注入するGRPOの軽量拡張であるAdaptive Virtual Sample Policy Optimization (AVSPO)を提案する。 AVSPOはGRPOに対して58～63%の利害崩壊を減少させ、すべてのモデルスケールで4～6ポイントの一貫した精度向上をもたらす。
論文参考訳（メタデータ） (2026-05-20T12:57:37Z)
fg-expo: Frontier-guided exploration-prioritized policy optimization via adaptive kl and gaussian curriculum [11.537163059885687]
FG-ExPOは,Frontier-Guided Exploration-Prioritized Policy Optimizationの略である。精度制御KLスケーリング(AKL)は、バッチ平均精度のスムーズな非線形関数により、KLのペナルティ強度を調整する。我々は6つの主要な数学的推論ベンチマークでDeepSeek-R1-Distill-Qwen-1.5BとQwen3-8B-Baseの評価を行った。
論文参考訳（メタデータ） (2026-05-12T01:48:48Z)
expo: Exploration-prioritized policy optimization via adaptive kl regulation and gaussian curriculum sampling [11.537163059885687]
2つの軽量プラグインモジュールを用いたExploration-Prioritized Policy Optimization (EXPO)を提案する。我々は6つの数学的推論ベンチマークでDeepSeek-R1-Distill-Qwen-1.5BとQwen3-8B-Baseの実験を行った。 AIME 2025 pass@32では13.34で、63.33パーセントから76.67パーセントに上昇し、8Bモデルでは平均2.66でパス@32が改善されている。
論文参考訳（メタデータ） (2026-05-11T03:19:04Z)
Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文参考訳（メタデータ） (2026-04-20T16:43:28Z)
Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing [79.88256756334327]
自己蒸留政策最適化(SDPO)は、より密集したロジットレベルの監視を提供することによってこの問題に対処する。サンプル制御ポリシー最適化(SRPO)を提案する。 SRPOは、試料をGRPOの報酬整合強化に向け、サンプルをSDPOの目標ロジットレベルの補正に向ける。
論文参考訳（メタデータ） (2026-04-02T17:29:18Z)
FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization [84.58281577727566]
本稿では,大規模言語モデルにおける推論ボトルネックを克服する強化学習アルゴリズムであるFuture-KL Influenced Policy Optimization (FIPO)を提案する。 FIPOは、割引先KLの分岐をポリシー更新に組み込むことでこの問題に対処し、その後の軌道行動への影響に基づいてトークンを再重み付けする密集した有利な定式化を作成する。 Qwen2.5-32Bで評価され、FIPOは平均チェーン長を約4,000から10,000以上のトークンに拡張し、AIME 2024 Pass@1の精度を50.0%から58.0%に向上させた。
論文参考訳（メタデータ） (2026-03-20T10:24:50Z)
Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。 textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文参考訳（メタデータ） (2026-03-10T04:07:39Z)
iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。 IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文参考訳（メタデータ） (2026-02-09T18:45:11Z)
Single-stream Policy Optimization [21.214853668053234]
SPO(Single-stream Policy Optimization)を導入する。 SPOはグループ単位のベースラインを永続的なKL適応値トラッカーに置き換え、バッチ全体にわたってメリットを標準化する。グループフリーであるため、SPOはより高いスループットと、長い水平またはツール統合された設定で効果的にスケールすることができる。
論文参考訳（メタデータ） (2025-09-16T16:39:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。