論文の概要: A Survey of Process Reward Models: From Outcome Signals to Process Supervisions for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.08049v1
- Date: Thu, 09 Oct 2025 10:35:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.014381
- Title: A Survey of Process Reward Models: From Outcome Signals to Process Supervisions for Large Language Models
- Title(参考訳): プロセス・リワードモデルに関する調査:大規模言語モデルにおけるアウトカム信号からプロセス・スーパービジョンへ
- Authors: Congming Zheng, Jiachen Zhu, Zhuoying Ou, Yuxiang Chen, Kangning Zhang, Rong Shan, Zeyu Zheng, Mengyue Yang, Jianghao Lin, Yong Yu, Weinan Zhang,
- Abstract要約: この調査は、完全なループを通して、PRMの体系的な概要を提供する。
数学、コード、テキスト、マルチモーダル推論、ロボット工学、エージェントにまたがる応用を要約する。
私たちのゴールは、設計空間を明確にし、オープンな課題を明らかにし、きめ細かな、堅牢な推論アライメントに向けた将来の研究を導くことです。
- 参考スコア(独自算出の注目度): 31.650962391182798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Large Language Models (LLMs) exhibit advanced reasoning ability, conventional alignment remains largely dominated by outcome reward models (ORMs) that judge only final answers. Process Reward Models(PRMs) address this gap by evaluating and guiding reasoning at the step or trajectory level. This survey provides a systematic overview of PRMs through the full loop: how to generate process data, build PRMs, and use PRMs for test-time scaling and reinforcement learning. We summarize applications across math, code, text, multimodal reasoning, robotics, and agents, and review emerging benchmarks. Our goal is to clarify design spaces, reveal open challenges, and guide future research toward fine-grained, robust reasoning alignment.
- Abstract(参考訳): 大きな言語モデル(LLM)は高度な推論能力を示すが、従来のアライメントは最終的な答えのみを判断する結果報酬モデル(ORM)に大きく支配されている。
プロセス・リワード・モデル(PRM)は、ステップや軌道レベルでの推論を評価し、導くことでこのギャップに対処する。
この調査は、プロセスデータの生成方法、PRMの構築方法、テストタイムのスケーリングと強化学習にPRMを使用する方法という、完全なループを通じて、PRMの体系的な概要を提供する。
数学、コード、テキスト、マルチモーダル推論、ロボット工学、エージェントにまたがる応用を要約し、新興ベンチマークをレビューする。
私たちのゴールは、設計空間を明確にし、オープンな課題を明らかにし、きめ細かな、堅牢な推論アライメントに向けた将来の研究を導くことです。
関連論文リスト
- R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Retrieval-Augmented Process Reward Model for Generalizable Mathematical Reasoning [32.850036320802474]
本稿では,OOD問題に対処するための新しいフレームワークであるRetrieval-Augmented Process Reward Model(RetrievalPRM)を紹介する。
RetrievalPRMは2段階の検索強化機構を利用して、セマンティックに類似した質問やステップをウォームアップとして検索する。
我々の実験では、RetrievalPRMは複数の実世界のデータセットで既存のベースラインを上回ります。
論文 参考訳(メタデータ) (2025-02-20T08:40:09Z) - ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。
ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。
マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2025-01-14T05:56:26Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models [28.74956741932006]
PRMベンチ(PRM Bench)は, PRMの微細な誤差検出機能を評価するための, プロセスレベルのベンチマークである。
PRMBenchは、6,216の慎重に設計された問題と83,456のステップレベルラベルで構成され、複数の次元にわたるモデルを評価する。
論文 参考訳(メタデータ) (2025-01-06T16:31:45Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。