論文の概要: $λ$-GRPO: Unifying the GRPO Frameworks with Learnable Token Preferences
- arxiv url: http://arxiv.org/abs/2510.06870v1
- Date: Wed, 08 Oct 2025 10:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.439519
- Title: $λ$-GRPO: Unifying the GRPO Frameworks with Learnable Token Preferences
- Title(参考訳): $λ$-GRPO: 学習可能なトークン設定でGRPOフレームワークを統合する
- Authors: Yining Wang, Jinman Zhao, Chuangxin Zhao, Shuhao Guan, Gerald Penn, Shinan Liu,
- Abstract要約: トークンレベルの重み付けを適応的に制御する学習可能なパラメータ$lambda$を導入します。
lambda$-GRPOはバニラGRPOとDAPOよりも一貫した改善を実現しています。
これらの利益は、トレーニングデータの変更や追加の計算コストなしで得られます。
- 参考スコア(独自算出の注目度): 22.199479724764725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Human Feedback (RLHF) has been the dominant approach for improving the reasoning capabilities of Large Language Models (LLMs). Recently, Reinforcement Learning with Verifiable Rewards (RLVR) has simplified this paradigm by replacing the reward and value models with rule-based verifiers. A prominent example is Group Relative Policy Optimization (GRPO). However, GRPO inherently suffers from a length bias, since the same advantage is uniformly assigned to all tokens of a response. As a result, longer responses distribute the reward over more tokens and thus contribute disproportionately to gradient updates. Several variants, such as DAPO and Dr. GRPO, modify the token-level aggregation of the loss, yet these methods remain heuristic and offer limited interpretability regarding their implicit token preferences. In this work, we explore the possibility of allowing the model to learn its own token preference during optimization. We unify existing frameworks under a single formulation and introduce a learnable parameter $\lambda$ that adaptively controls token-level weighting. We use $\lambda$-GRPO to denote our method, and we find that $\lambda$-GRPO achieves consistent improvements over vanilla GRPO and DAPO on multiple mathematical reasoning benchmarks. On Qwen2.5 models with 1.5B, 3B, and 7B parameters, $\lambda$-GRPO improves average accuracy by $+1.9\%$, $+1.0\%$, and $+1.7\%$ compared to GRPO, respectively. Importantly, these gains come without any modifications to the training data or additional computational cost, highlighting the effectiveness and practicality of learning token preferences.
- Abstract(参考訳): RLHF(Reinforcement Learning with Human Feedback)は、Large Language Models(LLMs)の推論能力を改善するための主要なアプローチである。
近年,Reinforcement Learning with Verifiable Rewards (RLVR)は,報酬モデルと価値モデルをルールベースの検証器に置き換えることで,このパラダイムを単純化している。
顕著な例として、グループ相対政策最適化(GRPO)がある。
しかし、GRPOは応答の全てのトークンに同じ利点が均一に割り当てられるため、本質的に長さバイアスに悩まされる。
結果として、より長いレスポンスは、より多くのトークンに報酬を分配し、したがって勾配更新に不釣り合いに寄与する。
DAPOやGRPOなどのいくつかの変種は、損失のトークンレベルアグリゲーションを変更するが、これらの手法はヒューリスティックであり、暗黙のトークンの選好に関して限定的な解釈性を提供する。
そこで本研究では,最適化中に,モデルが独自のトークン選択を学習できるようにする可能性について検討する。
既存のフレームワークを単一の定式化の下で統一し、トークンレベルの重み付けを適応的に制御する学習可能なパラメータ$\lambda$を導入します。
我々は,この方法を示すために$\lambda$-GRPOを使用し,複数の数学的推論ベンチマークにおいて,$\lambda$-GRPOがバニラGRPOとDAPOよりも一貫した改善を実現していることがわかった。
1.5B、3B、7Bパラメータを持つQwen2.5モデルでは、$\lambda$-GRPOは平均精度をそれぞれ$+1.9\%$、$+1.0\%$、$+1.7\%$で改善する。
重要なことに、これらの利益はトレーニングデータや追加の計算コストを変更することなく得られ、学習トークンの選好の有効性と実用性を強調している。
関連論文リスト
- GRPO-$λ$: Credit Assignment improves LLM Reasoning [35.452488047246646]
GRPO-$lambda$は、複雑な推論タスクのためのLLMのRL微調整におけるクレジット割り当てを強化するGRPOの新たな拡張である。
GRPO-$lambda$とGRPOを比較し、1.5Bから7Bパラメータのモデルを4ドルの異なる数学推論データセットでトレーニングする。
GRPO-$lambda$では、AIME24、Math500、OlympiadMath、MinervaMath、AMCの平均的なパフォーマンスはGRPOよりも3ドル以上改善され、7Bモデルでは4.5ドルポイント改善されている。
論文 参考訳(メタデータ) (2025-09-30T19:11:10Z) - G$^2$RPO-A: Guided Group Relative Policy Optimization with Adaptive Guidance [1.0591274452539035]
転がり軌道に地道推論ステップを注入するガイドGRPOについて検討する。
率直にガイダンスを追加することで、利益が制限されることに気付きました。
数学的推論とコード生成ベンチマークの実験により、G$2$RPO-AがバニラGRPOを大幅に上回っていることが確認された。
論文 参考訳(メタデータ) (2025-08-18T15:41:16Z) - Geometric-Mean Policy Optimization [117.05113769757172]
グループ相対政策最適化(GRPO)は,大規模言語モデルの推論能力を大幅に向上させた。
GRPOは、不利な重要度重み付けされた報酬を持つトークンに直面すると、不安定なポリシー更新に悩まされる。
本稿では,GRPOの安定性を向上させるために,トークン報酬の出力を抑えることにより,GMPO(Geometric-Mean Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-07-28T09:54:05Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning [11.157278744897427]
グループ相対政策最適化(GRPO)は、グループ内の全ての出力に対して平均報酬をベースラインとして減算することで、各出力の利点を計算するために提案された。
より適応的な利点推定モデルを用いて、KRPOはGRPOの安定性と性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-12T13:09:49Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。