論文の概要: GRPO-VPS: Enhancing Group Relative Policy Optimization with Verifiable Process Supervision for Effective Reasoning
- arxiv url: http://arxiv.org/abs/2604.20659v1
- Date: Wed, 22 Apr 2026 15:08:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.187836
- Title: GRPO-VPS: Enhancing Group Relative Policy Optimization with Verifiable Process Supervision for Effective Reasoning
- Title(参考訳): GRPO-VPS:効果的な推論のための検証プロセススーパービジョンによるグループ相対政策最適化の強化
- Authors: Jingyi Wang, Lei Zhu, Tengjin Weng, Song-Li Wu, Haochen Tan, Jierun Chen, Chaofan Tao, Haoli Bai, Lu Hou, Lifeng Shang, Xiao-Ping Zhang,
- Abstract要約: グループ相対政策最適化は中間段階の無差別な信用割当に苦しむ。
モデルフリーで検証可能なプロセス監視を,モデルが正しい回答を信じているかどうかを判断することによって導入する。
このアプローチにより、よりターゲット的でサンプル効率の良いポリシー更新が可能になる。
- 参考スコア(独自算出の注目度): 48.32628338889922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the reasoning capabilities of Large Language Models (LLMs) by leveraging direct outcome verification instead of learned reward models. Building on this paradigm, Group Relative Policy Optimization (GRPO) eliminates the need for critic models but suffers from indiscriminate credit assignment for intermediate steps, which limits its ability to identify effective reasoning strategies and incurs overthinking. In this work, we introduce a model-free and verifiable process supervision via probing the model's belief in the correct answer throughout its reasoning trajectory. By segmenting the generation into discrete steps and tracking the conditional probability of the correct answer appended at each segment boundary, we efficiently compute interpretable segment-wise progress measurements to refine GRPO's trajectory-level feedback. This approach enables more targeted and sample-efficient policy updates, while avoiding the need for intermediate supervision derived from costly Monte Carlo rollouts or auxiliary models. Experiments on mathematical and general-domain benchmarks show consistent gains over GRPO across diverse models: up to 2.6-point accuracy improvements and 13.7% reasoning-length reductions on math tasks, and up to 2.4 points and 4% on general-domain tasks, demonstrating strong generalization.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、学習報酬モデルではなく直接結果検証を活用することで、Large Language Models (LLM) の推論能力を向上した。
このパラダイムに基づいて、グループ相対的政策最適化(GRPO)は、批判モデルの必要性を排除するが、中間段階の無差別な信用割り当てに苦しむ。
本研究では,モデルフリーで検証可能なプロセス管理手法を提案する。
分割ステップに分割し,各セグメント境界に付加された正解の条件付き確率を追跡することにより,GRPOの軌道レベルのフィードバックを洗練させるために,解釈可能なセグメントワイド・プログレスの測定を効率的に行う。
このアプローチは、コストのかかるモンテカルロのロールアウトや補助モデルから派生した中間的な監督の必要性を回避しつつ、よりターゲットとサンプル効率のよいポリシー更新を可能にする。
数学と一般ドメインのベンチマークの実験では、GRPOよりも最大2.6ポイントの精度向上と13.7%の推論長削減、2.4ポイントと4%の一般ドメインのタスクが向上し、強力な一般化が示されている。
関連論文リスト
- iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities [10.235183326885794]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。
我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。
提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:06:55Z) - ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。
本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文 参考訳(メタデータ) (2026-01-29T16:04:59Z) - Evaluating GRPO and DPO for Faithful Chain-of-Thought Reasoning in LLMs [0.7045900712659982]
大型言語モデル(LLM)の問題解決能力向上のための強力な手法として、チェーン・オブ・シント推論(CoT)が登場している。
論文 参考訳(メタデータ) (2025-12-27T16:07:00Z) - Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning [49.290631188365786]
Scaf-GRPOは、モデルの独立した学習が停滞した時に介入するトレーニングフレームワークである。
これはQwen2.5-Math-7Bモデルのパス@1スコアを、バニラGRPOベースラインよりも44.3%向上させる。
この結果から、我々のフレームワークは、それまで到達範囲を超えていた問題を解決するモデルの能力を解き放つ、堅牢で効果的な方法論を提供することを示した。
論文 参考訳(メタデータ) (2025-10-22T17:41:30Z) - Can GRPO Help LLMs Transcend Their Pretraining Origin? [42.200901132315636]
グループ相対政策最適化は、大規模言語モデル(LLM)の推論能力を高めるための主要なアプローチである
広く採用されているにもかかわらず、GRPOの利益はしばしば矛盾している。
GRPOはどの条件で推論を改善し、アウト・オブ・ディストリビューション(OOD)を一般化するのか?
まず、GRPOは基本モデルの分布に縛られ、完全に新しい解を見つけることができない保守的な再重み付けスキームであることを理論的に証明する。
論文 参考訳(メタデータ) (2025-10-14T00:37:52Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。