論文の概要: GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning
- arxiv url: http://arxiv.org/abs/2504.00891v2
- Date: Sat, 05 Apr 2025 03:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 11:48:45.468225
- Title: GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning
- Title(参考訳): GenPRM: 生成推論によるプロセスリワードモデルのテスト時間計算のスケーリング
- Authors: Jian Zhao, Runze Liu, Kaiyan Zhang, Zhimu Zhou, Junqi Gao, Dong Li, Jiafei Lyu, Zhouyi Qian, Biqing Qi, Xiu Li, Bowen Zhou,
- Abstract要約: 我々は、コード検証を伴う明示的なChain-of-Thought(CoT)推論を行う生成プロセス報酬モデルGenPRMを紹介する。
実験の結果,GenPRMはMATHデータセットから23Kのトレーニングデータしか得られず,従来のPRMよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 35.429904556288996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have shown that it is promising to utilize Process Reward Models (PRMs) as verifiers to enhance the performance of LLMs. However, current PRMs face three key challenges: (1) limited process supervision and generalization capabilities, (2) dependence on scalar value prediction without leveraging the generative abilities of LLMs, and (3) inability to scale the test-time compute of PRMs. In this work, we introduce GenPRM, a generative process reward model that performs explicit Chain-of-Thought (CoT) reasoning with code verification before providing judgment for each reasoning step. To obtain high-quality process supervision labels and rationale data, we propose Relative Progress Estimation (RPE) and a rationale synthesis framework that incorporates code verification. Experimental results on ProcessBench and several mathematical reasoning tasks show that GenPRM significantly outperforms prior PRMs with only 23K training data from MATH dataset. Through test-time scaling, a 1.5B GenPRM outperforms GPT-4o, and a 7B GenPRM surpasses Qwen2.5-Math-PRM-72B on ProcessBench. Additionally, GenPRM demonstrates strong abilities to serve as a critic model for policy model refinement. This work establishes a new paradigm for process supervision that bridges the gap between PRMs and critic models in LLMs. Our code, model, and data will be available in https://ryanliu112.github.io/GenPRM.
- Abstract(参考訳): 近年のLLM(Large Language Models)の進歩により,プロセス・リワード・モデル(Process Reward Models, PRM)を検証器として活用し, LLMの性能を高めることが期待されている。
しかし、現在のPRMは、(1)プロセスの監督と一般化能力の制限、(2)LCMの生成能力を活用することなくスカラー値の予測に依存すること、(3)PRMのテスト時間計算をスケールできないこと、の3つの大きな課題に直面している。
本稿では,各推論ステップの判定を行う前に,コード検証による明示的なChain-of-Thought(CoT)推論を行う生成プロセス報酬モデルであるGenPRMを紹介する。
高品質なプロセス監視ラベルと合理化データを得るために,コード検証を組み込んだ相対進行推定(RPE)と合理化フレームワークを提案する。
ProcessBenchといくつかの数学的推論タスクの実験結果から、GenPRMはMATHデータセットから23Kのトレーニングデータのみを用いて、以前のPRMよりも大幅に優れていた。
1.5B GenPRM は GPT-4o を上回り、7B GenPRM は ProcessBench 上で Qwen2.5-Math-PRM-72B を上回ります。
さらに、GenPRMはポリシーモデルの洗練に対する批判モデルとして機能する強力な能力を示している。
この研究は、PLMとLLMの批判モデルの間のギャップを埋めるプロセス監視の新しいパラダイムを確立する。
私たちのコード、モデル、データはhttps://ryanliu112.github.io/GenPRM.orgで公開されます。
関連論文リスト
- Process Reward Models That Think [86.88809596842428]
ステップバイステップ検証 - プロセス報酬モデル(PRM)としても知られる - は、テスト時間スケーリングの鍵となる要素である。
この研究は、検証チェーン・オブ・シント(CoT)を生成することにより、ソリューションのすべてのステップを検証する言語化されたステップワイド報酬モデルとして、データ効率の高いPRMを構築することを目的としている。
我々は差別的PRMよりもプロセスラベルを桁違いに少なめに微調整した長いCoT検証器ThinkPRMを提案する。
論文 参考訳(メタデータ) (2025-04-23T15:44:54Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - Boosting Virtual Agent Learning and Reasoning: A Step-wise, Multi-dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
ステップワイドな多次元ジェネリスト・リワードモデルであるSimisalを提案する。
エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
仮想エージェント領域の最初のベンチマークをステップワイドで多次元の報酬モデルトレーニングと評価のために導入する。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - Process Reward Models for LLM Agents: Practical Framework and Directions [10.986389591866617]
エージェントプロセス・リワード・モデル (AgentPRM) を導入する。
InversePRMを提案する。これは、明示的な結果の監督なしに、デモから直接プロセス報酬を学習する。
ALFWorldベンチマークで評価したところ、AgentPRMとInversePRMで訓練された3Bモデルは、強力なGPT-4oベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-02-14T17:34:28Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Outcome-Refining Process Supervision for Code Generation [28.6680126802249]
大規模言語モデルは、深いアルゴリズム推論を必要とする複雑なプログラミングタスクに苦しむ。
本稿では,成果改善自体を監督するプロセスとして扱う新しいパラダイムであるアウトカム・リフィニング・プロセス・スーパービジョンを提案する。
このアプローチは,5つのモデルと3つのデータセットに対して,平均26.9%の精度向上と42.2%の効率向上を実現している。
論文 参考訳(メタデータ) (2024-12-19T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。