論文の概要: $λ$-GRPO: Unifying the GRPO Frameworks with Learnable Token Preferences
- arxiv url: http://arxiv.org/abs/2510.06870v2
- Date: Thu, 09 Oct 2025 03:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.586314
- Title: $λ$-GRPO: Unifying the GRPO Frameworks with Learnable Token Preferences
- Title(参考訳): $λ$-GRPO: 学習可能なトークン設定でGRPOフレームワークを統合する
- Authors: Yining Wang, Jinman Zhao, Chuangxin Zhao, Shuhao Guan, Gerald Penn, Shinan Liu,
- Abstract要約: トークンレベルの重み付けを適応的に制御する学習可能なパラメータ$lambda$を導入します。
lambda$-GRPOはバニラGRPOとDAPOよりも一貫した改善を実現しています。
これらの利益は、トレーニングデータの変更や追加の計算コストなしで得られます。
- 参考スコア(独自算出の注目度): 22.199479724764725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Human Feedback (RLHF) has been the dominant approach for improving the reasoning capabilities of Large Language Models (LLMs). Recently, Reinforcement Learning with Verifiable Rewards (RLVR) has simplified this paradigm by replacing the reward and value models with rule-based verifiers. A prominent example is Group Relative Policy Optimization (GRPO). However, GRPO inherently suffers from a length bias, since the same advantage is uniformly assigned to all tokens of a response. As a result, longer responses distribute the reward over more tokens and thus contribute disproportionately to gradient updates. Several variants, such as DAPO and Dr. GRPO, modify the token-level aggregation of the loss, yet these methods remain heuristic and offer limited interpretability regarding their implicit token preferences. In this work, we explore the possibility of allowing the model to learn its own token preference during optimization. We unify existing frameworks under a single formulation and introduce a learnable parameter $\lambda$ that adaptively controls token-level weighting. We use $\lambda$-GRPO to denote our method, and we find that $\lambda$-GRPO achieves consistent improvements over vanilla GRPO and DAPO on multiple mathematical reasoning benchmarks. On Qwen2.5 models with 1.5B, 3B, and 7B parameters, $\lambda$-GRPO improves average accuracy by $+1.9\%$, $+1.0\%$, and $+1.7\%$ compared to GRPO, respectively. Importantly, these gains come without any modifications to the training data or additional computational cost, highlighting the effectiveness and practicality of learning token preferences.
- Abstract(参考訳): RLHF(Reinforcement Learning with Human Feedback)は、Large Language Models(LLMs)の推論能力を改善するための主要なアプローチである。
近年,Reinforcement Learning with Verifiable Rewards (RLVR)は,報酬モデルと価値モデルをルールベースの検証器に置き換えることで,このパラダイムを単純化している。
顕著な例として、グループ相対政策最適化(GRPO)がある。
しかし、GRPOは応答の全てのトークンに同じ利点が均一に割り当てられるため、本質的に長さバイアスに悩まされる。
結果として、より長いレスポンスは、より多くのトークンに報酬を分配し、したがって勾配更新に不釣り合いに寄与する。
DAPOやGRPOなどのいくつかの変種は、損失のトークンレベルアグリゲーションを変更するが、これらの手法はヒューリスティックであり、暗黙のトークンの選好に関して限定的な解釈性を提供する。
そこで本研究では,最適化中に,モデルが独自のトークン選択を学習できるようにする可能性について検討する。
既存のフレームワークを単一の定式化の下で統一し、トークンレベルの重み付けを適応的に制御する学習可能なパラメータ$\lambda$を導入します。
我々は,この方法を示すために$\lambda$-GRPOを使用し,複数の数学的推論ベンチマークにおいて,$\lambda$-GRPOがバニラGRPOとDAPOよりも一貫した改善を実現していることがわかった。
1.5B、3B、7Bパラメータを持つQwen2.5モデルでは、$\lambda$-GRPOは平均精度をそれぞれ$+1.9\%$、$+1.0\%$、$+1.7\%$で改善する。
重要なことに、これらの利益はトレーニングデータや追加の計算コストを変更することなく得られ、学習トークンの選好の有効性と実用性を強調している。
関連論文リスト
- iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - RC-GRPO: Reward-Conditioned Group Relative Policy Optimization for Multi-Turn Tool Calling Agents [40.88916135445381]
報酬は希少であり、探索は高価であるため、大規模言語モデルではマルチターンのツールコールは困難である。
一般的なレシピであるSFTとGRPOは、グループ内報酬の変動が低いときに停止する。
本稿では、離散的な報酬トークンを用いて、探索を制御可能なステアリング問題として扱うRC-GRPOを提案する。
論文 参考訳(メタデータ) (2026-02-03T02:47:32Z) - GRPO-$λ$: Credit Assignment improves LLM Reasoning [35.452488047246646]
GRPO-$lambda$は、複雑な推論タスクのためのLLMのRL微調整におけるクレジット割り当てを強化するGRPOの新たな拡張である。
GRPO-$lambda$とGRPOを比較し、1.5Bから7Bパラメータのモデルを4ドルの異なる数学推論データセットでトレーニングする。
GRPO-$lambda$では、AIME24、Math500、OlympiadMath、MinervaMath、AMCの平均的なパフォーマンスはGRPOよりも3ドル以上改善され、7Bモデルでは4.5ドルポイント改善されている。
論文 参考訳(メタデータ) (2025-09-30T19:11:10Z) - FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。
我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文 参考訳(メタデータ) (2025-09-18T17:56:36Z) - G$^2$RPO-A: Guided Group Relative Policy Optimization with Adaptive Guidance [1.0591274452539035]
転がり軌道に地道推論ステップを注入するガイドGRPOについて検討する。
率直にガイダンスを追加することで、利益が制限されることに気付きました。
数学的推論とコード生成ベンチマークの実験により、G$2$RPO-AがバニラGRPOを大幅に上回っていることが確認された。
論文 参考訳(メタデータ) (2025-08-18T15:41:16Z) - Geometric-Mean Policy Optimization [117.05113769757172]
グループ相対政策最適化(GRPO)は,大規模言語モデルの推論能力を大幅に向上させた。
GRPOは、不利な重要度重み付けされた報酬を持つトークンに直面すると、不安定なポリシー更新に悩まされる。
本稿では,GRPOの安定性を向上させるために,トークン報酬の出力を抑えることにより,GMPO(Geometric-Mean Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-07-28T09:54:05Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning [11.157278744897427]
グループ相対政策最適化(GRPO)は、グループ内の全ての出力に対して平均報酬をベースラインとして減算することで、各出力の利点を計算するために提案された。
より適応的な利点推定モデルを用いて、KRPOはGRPOの安定性と性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-12T13:09:49Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - RePO: Understanding Preference Learning Through ReLU-Based Optimization [66.098833436503]
本稿では,ReLUに基づくPreference Optimization (RePO)を提案する。
RePOは、ロジスティック重み付けが二項しきい値に崩壊するSimPOの制限ケース(「infty$」の略)として特徴付けられる。
AlpacaEval 2 と Arena-Hard の実証結果は、RePO が複数のベースモデルで DPO と SimPO を上回っていることを示している。
論文 参考訳(メタデータ) (2025-03-10T15:11:07Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。