論文の概要: Rewards as Labels: Revisiting RLVR from a Classification Perspective
- arxiv url: http://arxiv.org/abs/2602.05630v1
- Date: Thu, 05 Feb 2026 13:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.936584
- Title: Rewards as Labels: Revisiting RLVR from a Classification Perspective
- Title(参考訳): ラベルとしてのリワード:分類の観点からRLVRを再考する
- Authors: Zepeng Zhai, Meilin Chen, Jiaxuan Zhao, Junlang Qian, Lei Shen, Yuan Lu,
- Abstract要約: 検証可能なリワードによる強化学習は、最近、複雑な推論タスクにおける大規模言語モデルの能力を進歩させた。
本稿では,評価可能な報酬をスカラーウェイトではなくカテゴリラベルとして再考する新しいフレームワークであるRewards as Labels (REAL)を提案する。
解析の結果,REALは単調かつ有界な勾配重み付けを誘導し,ロールアウト間のバランスの取れた勾配割り当てを可能にすることがわかった。
- 参考スコア(独自算出の注目度): 10.774056916074441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards has recently advanced the capabilities of Large Language Models in complex reasoning tasks by providing explicit rule-based supervision. Among RLVR methods, GRPO and its variants have achieved strong empirical performance. Despite their success, we identify that they suffer from Gradient Misassignment in Positives and Gradient Domination in Negatives, which lead to inefficient and suboptimal policy updates. To address these issues, we propose Rewards as Labels (REAL), a novel framework that revisits verifiable rewards as categorical labels rather than scalar weights, thereby reformulating policy optimization as a classification problem. Building on this, we further introduce anchor logits to enhance policy learning. Our analysis reveals that REAL induces a monotonic and bounded gradient weighting, enabling balanced gradient allocation across rollouts and effectively mitigating the identified mismatches. Extensive experiments on mathematical reasoning benchmarks show that REAL improves training stability and consistently outperforms GRPO and strong variants such as DAPO. On the 1.5B model, REAL improves average Pass@1 over DAPO by 6.7%. These gains further scale to 7B model, REAL continues to outperform DAPO and GSPO by 6.2% and 1.7%, respectively. Notably, even with a vanilla binary cross-entropy, REAL remains stable and exceeds DAPO by 4.5% on average.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewardsは、ルールベースの明示的な監視を提供することで、複雑な推論タスクにおいて、大規模言語モデルの能力を向上した。
RLVR法の中で、GRPOとその変種は強力な経験的性能を達成している。
その成功にもかかわらず、我々は、肯定的な過ちと否定的な過度な支配に苦しめられ、非効率で過度な政策更新につながると認識している。
これらの課題に対処するため、スカラーウェイトではなくカテゴリラベルとして検証可能な報酬を再考する新しい枠組みであるRewards as Labels (REAL)を提案する。
これに基づいて、政策学習を強化するためのアンカーロジットも導入する。
解析の結果,REALは単調かつ有界な勾配重み付けを誘導し,ロールアウト間のバランスの取れた勾配割り当てを可能にし,同定されたミスマッチを効果的に軽減することがわかった。
数学的推論ベンチマークの広範な実験により、REALはトレーニングの安定性を改善し、GRPOやDAPOのような強力な変種を一貫して上回っていることが示されている。
1.5Bモデルでは、REALはDAPOよりも平均的なPass@1を6.7%改善している。
これらは7Bモデルにさらに拡大し、REALはDAPOとGSPOをそれぞれ6.2%、GSPOは1.7%上回っている。
特に、バニラ連星のクロスエントロピーであっても、REALは安定であり、平均してDAPOを4.5%上回る。
関連論文リスト
- Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities [10.235183326885794]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。
我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。
提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:06:55Z) - DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - SPARK: Synergistic Policy And Reward Co-Evolving Framework [84.22494672256894]
我々は、RLVR上に構築された効率的でオン・ポリティクス、安定した手法であるSPARK(Synergistic Policy and Reward Co-Evolving Framework)を紹介する。
ロールアウトと正確性データを捨てる代わりに、SPARKはこの貴重な情報をリサイクルし、生成的報酬モデルとしてモデル自体をトレーニングする。
SPARK は複数の LLM モデルと LVLM モデル,および複数の推論,報酬モデル,一般ベンチマークにおいて,大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-09-26T17:50:12Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - REARANK: Reasoning Re-ranking Agent via Reinforcement Learning [69.8397511935806]
本稿では,大規模言語モデル(LLM)に基づくリストワイズ推論エージェントREARANKを提案する。
REARANKは、リランク前の明確な理由と、パフォーマンスと解釈性の両方を大幅に改善した。
論文 参考訳(メタデータ) (2025-05-26T14:31:48Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。