論文の概要: F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the Rare
- arxiv url: http://arxiv.org/abs/2602.06717v1
- Date: Fri, 06 Feb 2026 14:07:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.418951
- Title: F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the Rare
- Title(参考訳): F-GRPO: 自分の政策が明らかなことを学ばないで、希少なことを忘れる
- Authors: Daniil Plyusov, Alexey Gorbatovski, Boris Shaposhnikov, Viacheslav Sinii, Alexey Malakhov, Daniil Gavrilov,
- Abstract要約: グループサイズの関数として、更新が希少な修正モードを欠く確率を導出する。
本稿では,高頻度プロンプトのダウンウェイトが更新されるFocal Losにインスパイアされた,難易度を考慮したアドバンテージスケーリング係数を提案する。
- 参考スコア(独自算出の注目度): 9.330145357231462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) is commonly based on group sampling to estimate advantages and stabilize policy updates. In practice, large group sizes are not feasible due to computational limits, which biases learning toward trajectories that are already likely. Smaller groups often miss rare-correct trajectories while still containing mixed rewards, concentrating probability on common solutions. We derive the probability that updates miss rare-correct modes as a function of group size, showing non-monotonic behavior, and characterize how updates redistribute mass within the correct set, revealing that unsampled-correct mass can shrink even as total correct mass grows. Motivated by this analysis, we propose a difficulty-aware advantage scaling coefficient, inspired by Focal loss, that down-weights updates on high-success prompts. The lightweight modification can be directly integrated into any group-relative RLVR algorithm such as GRPO, DAPO, and CISPO. On Qwen2.5-7B across in-domain and out-of-domain benchmarks, our method improves pass@256 from 64.1 $\rightarrow$ 70.3 (GRPO), 69.3 $\rightarrow$ 72.5 (DAPO), and 73.2 $\rightarrow$ 76.8 (CISPO), while preserving or improving pass@1, without increasing group size or computational cost.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、一般的にグループサンプリングに基づいて利点を推定し、ポリシー更新を安定化する。
実際には、大きなグループサイズは計算限界のために実現不可能であり、これは既に起こりうる軌道への学習に偏っている。
より小さな群は、しばしば希少な正確な軌道を見逃すが、依然として混合報酬を含み、一般的な解に確率を集中させる。
非単調な振る舞いを示すグループサイズの関数として、更新が希少な修正モードを欠く確率を導出し、更新が正しい集合内で再分別質量をいかに特徴づけるかを明らかにし、全正質量が増大しても、未正質量が縮小する可能性があることを明らかにした。
この分析により,高頻度プロンプトのダウンウェイト更新にインスパイアされた,難易度の高い利便スケーリング係数を提案する。
軽量な修正は、GRPO、DAPO、CISPOなどのグループ関連RLVRアルゴリズムに直接組み込むことができる。
Qwen2.5-7Bでは,64.1$\rightarrow$ 70.3 (GRPO), 69.3$\rightarrow$ 72.5 (DAPO), 73.2$\rightarrow$ 76.8 (CISPO) からpass@256を改良した。
関連論文リスト
- Transform-Augmented GRPO Improves Pass@k [50.3707071191733]
グループ相対政策最適化(GRPO)は推論を改善するために設計されたが、2つの障害モードによって状況が悪化する。
本稿では,各質問に対して意味論的に等価な変換変種を生成するTA-GRPO(Transform-Augmented GRPO)を提案する。
このプール化された計算は、元の質問が簡単すぎるか難しすぎる場合でも、混合報酬を保証する一方、多様なフレーズのトレーニングは、複数のソリューション戦略を促進する。
論文 参考訳(メタデータ) (2026-01-30T02:43:29Z) - $λ$-GRPO: Unifying the GRPO Frameworks with Learnable Token Preferences [22.199479724764725]
トークンレベルの重み付けを適応的に制御する学習可能なパラメータ$lambda$を導入します。
lambda$-GRPOはバニラGRPOとDAPOよりも一貫した改善を実現しています。
これらの利益は、トレーニングデータの変更や追加の計算コストなしで得られます。
論文 参考訳(メタデータ) (2025-10-08T10:39:07Z) - Future Policy Aware Preference Learning for Mathematical Reasoning [15.444539171776983]
重要な課題は、好ましくないトラジェクトリと好ましくないトラジェクトリの間の大きなトークンの重複である。
本稿では,現在の政策を正規化期間における今後の政策に置き換えたFPA(Future Policy Aware)選好学習を提案する。
FPAは、SimPERで観測された最大の改善により、一貫したパフォーマンス向上を達成し、最大5.75%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-09-24T08:44:12Z) - NGRPO: Negative-enhanced Group Relative Policy Optimization [8.641009168869195]
代表的RLVRアルゴリズムであるGRPOは、グループ内の全ての応答が完全に正しいか完全に間違っている場合、臨界的な制限に悩まされる。
これは、GRPO の優位関数が 0 の値を生成する等質的不正確な群に対して特に問題となる。
等質な誤りを頑健な学習信号に変換するアルゴリズムであるNGRPOを提案する。
論文 参考訳(メタデータ) (2025-09-23T09:38:10Z) - Geometric-Mean Policy Optimization [117.05113769757172]
グループ相対政策最適化(GRPO)は,大規模言語モデルの推論能力を大幅に向上させた。
GRPOは、不利な重要度重み付けされた報酬を持つトークンに直面すると、不安定なポリシー更新に悩まされる。
本稿では,GRPOの安定性を向上させるために,トークン報酬の出力を抑えることにより,GMPO(Geometric-Mean Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-07-28T09:54:05Z) - Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening [36.81125165911328]
強化学習は、言語モデルの推論能力を改善する主要な要因として現れています。
本稿では,現在の強化学習アルゴリズムが,すでに解いている問題に関するベースモデルの分布を単に研ぎ澄ましているだけかどうかを考察する。
差分報酬はランクバイアスを緩和し、合成定理と実定理の両方の証明設定において、多種多様な$N$でpass@N$を改善することを示す。
論文 参考訳(メタデータ) (2025-06-03T01:15:15Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。