論文の概要: VeriGate: Verifier-Gated Step-Level Supervision for GRPO
- arxiv url: http://arxiv.org/abs/2605.30451v1
- Date: Thu, 28 May 2026 18:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.166337
- Title: VeriGate: Verifier-Gated Step-Level Supervision for GRPO
- Title(参考訳): VeriGate: GRPO 用 VeriGate-Gated Step-Level Supervision
- Authors: Aakriti Agrawal, Minghui Liu, Furong Huang,
- Abstract要約: グループ相対政策最適化は、検証者に基づく結果報酬を伴う推論モデルをトレーニングするための効果的なレシピである。
GRPO の検証子付き拡張である VeriGate を提案し,これらの制限を3つの設計選択で解決する。
We show that VeriGate improves average accuracy around 20% and 12% for 1.5B and 7B models respectively。
- 参考スコア(独自算出の注目度): 51.26100506256885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group Relative Policy Optimization (GRPO) is an effective recipe for training reasoning models with verifier-based outcome rewards, but its supervision is sparse: when all sampled trajectories for a prompt receive the same verifier reward, the group-relative advantage collapses to zero and learning stalls. Outcome-only rewards also provide no step-level credit assignment, limiting exploration and making it harder to learn robust reasoning. We present VeriGate (Verifier-Gated Step-Level GRPO), a verifier-gated extension of GRPO that addresses these limitations with three design choices. First, VeriGate keeps the verifier in charge whenever verifier rewards induce a meaningful preference among sampled trajectories, and uses process supervision only when verifier rewards are degenerate. Second, instead of collapsing Process Reward Model (PRM) step scores into a single trajectory reward, VeriGate converts them into future-cumulated rewards to assign continuation-aware credit. Third, VeriGate transforms these rewards into group-normalized token-level advantages, restoring informative gradients and fine-grained credit assignment while remaining less susceptible to reward hacking than methods that optimize aggregated PRM scores. Empirically, training on MATH with 1.5B and 7B Qwen2.5-Instruct models and evaluating on six reasoning benchmarks, VeriGate improves average accuracy by about 20% and 12% for 1.5B and 7B models respectively, substantially reduces zero-gradient failures, decreases reward-hacking behavior, and improves reasoning quality relative to outcome-only GRPO and PRM-as-outcome baselines.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は、検証者に基づく結果報酬を持つ推論モデルを訓練するための効果的なレシピであるが、その監督は不十分である。
アウトカムのみの報酬は、ステップレベルのクレジット代入、探索の制限、堅牢な推論の習得を困難にします。
We present VeriGate (VeriGate, VeriGate, VeriGate-Gated Step-Level GRPO), a verifier-gated extension of GRPO that address these limit with three design choices。
第一に、VeriGateは、検証者報酬がサンプル軌跡間で有意義な選好を誘導するたびに、検証者に対して責任を保ち、検証者報酬が縮退した場合にのみプロセスの監督を使用する。
第二に、プロセス・リワード・モデル(PRM)のステップスコアを1つのトラジェクティブ・リワードに変換する代わりに、VeriGateはそれらを将来の累積報酬に変換し、継続を意識したクレジットを割り当てる。
第三に、VeriGateはこれらの報酬をグループ正規化トークンレベルのアドバンテージに変換し、情報グラデーションときめ細かいクレジット割り当てを復元する。
実証的には、1.5B と 7B Qwen2.5-Instruct モデルによるMATHトレーニングと6つの推論ベンチマークによる評価により、VeriGate は平均精度を 1.5B と 7B モデルでそれぞれ約20% と 12% 改善し、ゼロ・グラディエントな失敗を著しく低減し、報酬-ハックの振る舞いを減少させ、結果のみのGRPO と PRM-as-outcome ベースラインと比較して推論品質を向上させる。
関連論文リスト
- Advantage Collapse in Group Relative Policy Optimization: Diagnosis and Mitigation [13.272542054938258]
非効率な勾配でトレーニングバッチの割合を定量化する最初の指標であるAdvantage Collapse Rate (ACR)を導入する。
次に、仮想報酬サンプルを注入するGRPOの軽量拡張であるAdaptive Virtual Sample Policy Optimization (AVSPO)を提案する。
AVSPOはGRPOに対して58~63%の利害崩壊を減少させ、すべてのモデルスケールで4~6ポイントの一貫した精度向上をもたらす。
論文 参考訳(メタデータ) (2026-05-20T12:57:37Z) - Verifier-Free RL for LLMs via Intrinsic Gradient-Norm Reward [69.99652051809737]
本研究では,検証自由な内在性勾配項再帰(VIGOR)を提案する。
VIGORはポリシーモデルのみを使用する単純な報酬です。
数学データのみに基づいてトレーニングされた場合、コードベンチマークへのクロスドメイン転送を示す。
論文 参考訳(メタデータ) (2026-05-11T03:15:37Z) - Enhancing LLM-based Search Agents via Contribution Weighted Group Relative Policy Optimization [47.7937991619078]
本稿では,プロセスの監督をグループ相対的な政策最適化に統合するフレームワークであるコントリビューション重み付きGRPOを提案する。
CW-GRPOは、LLM判定器を用いて、検索ラウンド毎の検索ユーティリティと推論精度を評価し、ラウンド毎のコントリビューションスコアを生成する。
複数の知識集約型ベンチマークの実験では、CW-GRPOはQwen3-8Bでは5.0%、Qwen3-1.7Bでは6.3%、標準GRPOより優れていた。
論文 参考訳(メタデータ) (2026-04-15T17:37:59Z) - Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing [79.88256756334327]
自己蒸留政策最適化(SDPO)は、より密集したロジットレベルの監視を提供することによってこの問題に対処する。
サンプル制御ポリシー最適化(SRPO)を提案する。
SRPOは、試料をGRPOの報酬整合強化に向け、サンプルをSDPOの目標ロジットレベルの補正に向ける。
論文 参考訳(メタデータ) (2026-04-02T17:29:18Z) - Rewards as Labels: Revisiting RLVR from a Classification Perspective [10.774056916074441]
検証可能なリワードによる強化学習は、最近、複雑な推論タスクにおける大規模言語モデルの能力を進歩させた。
本稿では,評価可能な報酬をスカラーウェイトではなくカテゴリラベルとして再考する新しいフレームワークであるRewards as Labels (REAL)を提案する。
解析の結果,REALは単調かつ有界な勾配重み付けを誘導し,ロールアウト間のバランスの取れた勾配割り当てを可能にすることがわかった。
論文 参考訳(メタデータ) (2026-02-05T13:11:36Z) - Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。
我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。
OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2026-01-12T10:48:02Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning [36.320502608626896]
プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)のテストタイムスケーリングにおいて、困難な推論タスクにおいて有効であることが証明されている。
しかしながら、PRMによる報酬ハッキング問題は、強化微調整における彼らの成功を制限している。
本稿では,PRMによる報酬ハッキングの主な原因を,強化学習における正準和形信用代入として同定する。
論文 参考訳(メタデータ) (2025-04-21T17:59:02Z) - Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。
PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。
PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。
理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文 参考訳(メタデータ) (2024-10-10T17:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。