論文の概要: Revisiting Reinforcement Learning with Verifiable Rewards from a Contrastive Perspective
- arxiv url: http://arxiv.org/abs/2605.12969v2
- Date: Mon, 18 May 2026 06:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.799787
- Title: Revisiting Reinforcement Learning with Verifiable Rewards from a Contrastive Perspective
- Title(参考訳): 比較的視点から検証可能なリワードによる強化学習の再考
- Authors: Feng Zhang, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang Yang, Guanjun Jiang,
- Abstract要約: RLVRにおけるコントラストシーケンスレベルのポリシー最適化のためのフレームワークを提案する。
ConSPOはGRPOのクリップされた比率ベースのスコアを、長さ正規化されたシーケンスログ確率に置き換える。
ConSPOは、挑戦的な数学的推論ベンチマークにおいて、いくつかの強力なRLVRベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 10.958642517467721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RLVR has become a widely adopted paradigm for improving LLMs' reasoning capabilities, and GRPO is one of its most representative algorithms. In this paper, we first show that GRPO admits an equivalent discriminative reformulation as a weighted positive-negative score difference. Under this view, GRPO increases sequence-level scores of verified positive rollouts and decreases those of negative rollouts, where the scores are averages of clipped token-level importance sampling ratios. This reformulation reveals two structural limitations of GRPO: likelihood-misaligned scoring, where clipped ratio-based surrogate scores are optimized instead of generation likelihoods, and score-insensitive credit assignment, where rollout-level credit is assigned without accounting for relative score gaps between positive and negative rollouts in the same group. To address these limitations, we propose ConSPO, a framework for Contrastive Sequence-level Policy Optimization in RLVR. ConSPO replaces GRPO's clipped ratio-based scores with length-normalized sequence log-probabilities, aligning the optimized rollout scores with the likelihoods used in autoregressive generation. It then optimizes a group-wise InfoNCE-style objective that contrasts each positive rollout against negative distractors from the same group, enabling credit assignment to depend on their relative scores. This contrastive formulation amplifies updates for poorly separated positives while concentrating suppressive updates on high-scoring negatives. Moreover, ConSPO introduces a curriculum-scheduled margin, guiding optimization from coarse positive-negative ordering in early training toward stronger separation in later stages. Extensive evaluations across diverse backbone models, parameter scales, and training datasets show that ConSPO consistently outperforms several strong RLVR baselines on challenging mathematical reasoning benchmarks.
- Abstract(参考訳): RLVRはLLMの推論能力を改善するためのパラダイムとして広く採用され、GRPOは最も代表的なアルゴリズムの1つである。
本稿ではまず,GRPOが重み付き正負のスコア差として等価な識別的改質を認めていることを示す。
この観点では、GRPOは正の正のロールアウトのシーケンスレベルスコアを増大させ、負のロールアウトのスコアを減少させる。
この改定によりGRPOの2つの構造的限界が明らかにされる: クリッピングされた比率に基づくサロゲートスコアが生成可能性の代わりに最適化される可能性ミスアライメントスコアと、同じグループの正と負のロールアウト間の相対的なスコアギャップを考慮せずにロールアウトレベルのクレジットが割り当てられるスコアインセンティブクレジット割り当てである。
これらの制約に対処するため、RLVRにおけるコントラストシーケンスレベルのポリシー最適化のためのフレームワークであるConSPOを提案する。
ConSPOはGRPOのクリップされた比率ベースのスコアを長さ正規化シーケンスのログ確率に置き換え、最適化されたロールアウトスコアを自己回帰生成で使用される可能性と整合させる。
次に、グループ単位のInfoNCEスタイルの目的を最適化し、それぞれの正のロールアウトを同じグループからの負のイントラクタと対比し、クレジットの割り当てを相対的なスコアに依存するようにする。
この対照的な定式化は、低分離の正の更新を増幅し、高スコアの負の抑圧的な更新を集中させる。
さらに、ConSPOはカリキュラムスケジューリングマージンを導入し、初期トレーニングにおいて粗い正負の順序付けから後段のより強い分離への最適化を導く。
多様なバックボーンモデル、パラメータスケール、トレーニングデータセットの広範な評価は、ConSPOが挑戦的な数学的推論ベンチマークにおいて、いくつかの強力なRLVRベースラインを一貫して上回っていることを示している。
関連論文リスト
- F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking [79.49893545611779]
大規模言語モデル(LLM)はサブセットを生成し、それを1つの自己回帰パス内で順序付けることができる。
この柔軟性は、新しい最適化課題をもたらす: モデルが出力空間を検索し、完全なランクリストが生成された後にのみユーティリティフィードバックを受けなければならない。
このクレジット割り当てギャップは、エンドツーエンドの最適化を不安定にし、サンプル非効率にする。
本稿では,単一自己回帰的ロールアウト内の両方を実行する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-13T04:52:33Z) - Beyond Negative Rollouts: Positive-Only Policy Optimization with Implicit Negative Gradients [19.444308344942716]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の推論能力を高める主要なパラダイムとなる。
オンラインのポジティブロールアウトを通じてのみ学習を行うことができる新しいRLVRフレームワークであるPOPOを提案する。
論文 参考訳(メタデータ) (2026-05-07T17:55:21Z) - Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO [70.38763678943648]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデルにおける推論とコード生成を改善するための中心的なパラダイムとなっている。
標準的なGRPOはシーケンスアグリゲーションを使用し、最近の研究はトークンアグリゲーションをより良い代替手段として提唱している。
トークンアグリゲーションは符号長結合を導入し、シーケンスアグリゲーションは暗黙的にダウンウェイトを延長する。
論文 参考訳(メタデータ) (2026-04-14T09:48:46Z) - When Right Meets Wrong: Bilateral Context Conditioning with Reward-Confidence Correction for GRPO [18.988527161000203]
グループ相対政策最適化(GRPO)は、推論モデルを訓練するための効果的な方法として登場した。
本稿では,GRPOの目的が正解率と正解率とのマージンを暗黙的に最大化することを示す。
本稿では,モデルが相互参照を成功させる機構であるバイラテラルコンテキストコンディショニング(BICC)を提案する。
論文 参考訳(メタデータ) (2026-03-13T16:25:02Z) - From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning [7.6602542594279335]
本稿では,報酬形成を絶対得点から相対ランクへシフトさせるために,相対報酬を用いた強化学習を提案する。
RLRRは、推論ベンチマークやオープン・エンド・ジェネレーションタスクにおいて、標準グループベースベースラインよりも一貫した性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2026-01-30T15:07:06Z) - Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。
我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。
OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2026-01-12T10:48:02Z) - Segmental Advantage Estimation: Enhancing PPO for Long-Context LLM Training [17.530233901658253]
セグメンショナルアドバンテージ推定は、一般化アドバンテージ推定が検証されたリワードを用いた強化学習において生じるバイアスを緩和する。
SAEは、最終的なスコア、安定性、サンプル効率を著しく改善し、優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-12T08:41:47Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。