論文の概要: Socratic-PRMBench: Benchmarking Process Reward Models with Systematic Reasoning Patterns
- arxiv url: http://arxiv.org/abs/2505.23474v1
- Date: Thu, 29 May 2025 14:26:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.89821
- Title: Socratic-PRMBench: Benchmarking Process Reward Models with Systematic Reasoning Patterns
- Title(参考訳): Socratic-PRMBench: システム推論パターンを用いたベンチマークプロセスリワードモデル
- Authors: Xiang Li, Haiyang Yu, Xinghua Zhang, Ziyang Huang, Shizhu He, Kang Liu, Jun Zhao, Fei Huang, Yongbin Li,
- Abstract要約: プロセス・リワード・モデル(PRM)は複雑な推論と問題解決に不可欠である。
PRMは、推論プロセス中に様々な推論パターンの下でエラーを特定する必要がある。
既存のベンチマークは主に、段階的に正しいPRMを評価することに焦点を当てている。
Socratic-PRMBenchは、6つの推論パターンでPRMを体系的に評価する新しいベンチマークである。
- 参考スコア(独自算出の注目度): 79.42805969325036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Process Reward Models (PRMs) are crucial in complex reasoning and problem-solving tasks (e.g., LLM agents with long-horizon decision-making) by verifying the correctness of each intermediate reasoning step. In real-world scenarios, LLMs may apply various reasoning patterns (e.g., decomposition) to solve a problem, potentially suffering from errors under various reasoning patterns. Therefore, PRMs are required to identify errors under various reasoning patterns during the reasoning process. However, existing benchmarks mainly focus on evaluating PRMs with stepwise correctness, ignoring a systematic evaluation of PRMs under various reasoning patterns. To mitigate this gap, we introduce Socratic-PRMBench, a new benchmark to evaluate PRMs systematically under six reasoning patterns, including Transformation, Decomposition, Regather, Deduction, Verification, and Integration. Socratic-PRMBench}comprises 2995 reasoning paths with flaws within the aforementioned six reasoning patterns. Through our experiments on both PRMs and LLMs prompted as critic models, we identify notable deficiencies in existing PRMs. These observations underscore the significant weakness of current PRMs in conducting evaluations on reasoning steps under various reasoning patterns. We hope Socratic-PRMBench can serve as a comprehensive testbed for systematic evaluation of PRMs under diverse reasoning patterns and pave the way for future development of PRMs.
- Abstract(参考訳): プロセス・リワード・モデル(PRM)は、各中間的推論ステップの正しさを検証することによって、複雑な推論および問題解決タスク(例えば、長期的意思決定を伴うLLMエージェント)において不可欠である。
実世界のシナリオでは、LLMは様々な推論パターン(例えば分解)を適用し、様々な推論パターンの下でエラーに悩まされる可能性がある。
したがって、PRMは、推論プロセス中に様々な推論パターンの下でエラーを特定する必要がある。
しかし、既存のベンチマークは主に、様々な推論パターンの下でのPRMの系統的評価を無視して、段階的に正しいPRMを評価することに重点を置いている。
このギャップを緩和するために、Soccratic-PRMBenchを紹介します。これは、変換、分解、再帰、推論、検証、統合の6つの推論パターンに基づいて、PRMを体系的に評価するための新しいベンチマークです。
Socratic-PRMBench}は、上記の6つの推論パターンに欠陥がある2995の推論パスで構成されている。
批判モデルとしてPRMとLLMの両実験を行った結果,既存のPRMの欠点が判明した。
これらの観察は、様々な推論パターン下での推論ステップの評価において、現在のPRMの重大な弱点を浮き彫りにした。
我々は,Socratic-PRMBenchが多様な推論パターンの下でPRMを体系的に評価するための総合的なテストベッドとして機能し,今後のPRMの開発への道を開くことを願っている。
関連論文リスト
- Is PRM Necessary? Problem-Solving RL Implicitly Induces PRM Capability in LLMs [26.49278448640309]
我々は,RLトレーニングとPRM能力の関係を系統的に調査する。
本研究は,問題解決能力とプロセス管理能力が相補的な推論の次元を表わすことを示した。
本稿では,モデルが生成したソリューションを自律的に評価・再評価するイントロスペクティブフレームワークであるSelf-PRMを提案する。
論文 参考訳(メタデータ) (2025-05-16T13:23:26Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - Reward Models Identify Consistency, Not Causality [54.987590763737145]
最先端の報酬モデルでは、因果正しさよりも構造的な一貫性が優先される。
問題文の削除は報酬のスコアに最小限の影響を与える。
数値を変更するか、推論フローを乱すかは、RM出力に大きく影響する。
論文 参考訳(メタデータ) (2025-02-20T14:57:14Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models [28.74956741932006]
PRMベンチ(PRM Bench)は, PRMの微細な誤差検出機能を評価するための, プロセスレベルのベンチマークである。
PRMBenchは、6,216の慎重に設計された問題と83,456のステップレベルラベルで構成され、複数の次元にわたるモデルを評価する。
論文 参考訳(メタデータ) (2025-01-06T16:31:45Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。