Fugu-MT 論文翻訳(概要): The Lessons of Developing Process Reward Models in Mathematical Reasoning

論文の概要: The Lessons of Developing Process Reward Models in Mathematical Reasoning

arxiv url: http://arxiv.org/abs/2501.07301v1
Date: Mon, 13 Jan 2025 13:10:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-14 17:20:21.29582
Title: The Lessons of Developing Process Reward Models in Mathematical Reasoning
Title（参考訳）: 数理推論におけるプロセス・リワードモデル構築の教訓
Authors: Zhenru Zhang, Chujie Zheng, Yangzhen Wu, Beichen Zhang, Runji Lin, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin,
Abstract要約: Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
参考スコア（独自算出の注目度）: 62.165534879284735
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Process Reward Models (PRMs) emerge as a promising approach for process supervision in mathematical reasoning of Large Language Models (LLMs), which aim to identify and mitigate intermediate errors in the reasoning processes. However, the development of effective PRMs faces significant challenges, particularly in data annotation and evaluation methodologies. In this paper, through extensive experiments, we demonstrate that commonly used Monte Carlo (MC) estimation-based data synthesis for PRMs typically yields inferior performance and generalization compared to LLM-as-a-judge and human annotation methods. MC estimation relies on completion models to evaluate current-step correctness, leading to inaccurate step verification. Furthermore, we identify potential biases in conventional Best-of-N (BoN) evaluation strategies for PRMs: (1) The unreliable policy models generate responses with correct answers but flawed processes, leading to a misalignment between the evaluation criteria of BoN and the PRM objectives of process verification. (2) The tolerance of PRMs of such responses leads to inflated BoN scores. (3) Existing PRMs have a significant proportion of minimum scores concentrated on the final answer steps, revealing the shift from process to outcome-based assessment in BoN Optimized PRMs. To address these challenges, we develop a consensus filtering mechanism that effectively integrates MC estimation with LLM-as-a-judge and advocates a more comprehensive evaluation framework that combines response-level and step-level metrics. Based on the mechanisms, we significantly improve both model performance and data efficiency in the BoN evaluation and the step-wise error identification task. Finally, we release a new state-of-the-art PRM that outperforms existing open-source alternatives and provides practical guidelines for future research in building process supervision models.
Abstract（参考訳）: プロセス・リワード・モデル (Process Reward Models, PRMs) は、大規模言語モデル (LLMs) の数学的推論におけるプロセス監督のための有望なアプローチとして出現する。しかし、有効なPRMの開発は、特にデータアノテーションや評価手法において大きな課題に直面している。本稿では, PRMのモンテカルロ推定に基づくデータ合成が, LLM-as-a-judge法やヒューマンアノテーション法と比較して, 性能と一般化の面で劣ることを示す。 MC推定は、現在のステップの正しさを評価するために完了モデルに依存し、不正確なステップ検証をもたらす。さらに,従来のBest-of-N (BoN) 評価戦略における潜在的なバイアスを同定し,(1) 信頼性の低い政策モデルが正しい回答と欠陥のあるプロセスを生成することにより,BoNの評価基準とプロセス検証のPRM目標との相違が生じる。 2) これらの反応に対するPRMの耐性は, 膨潤したBoNのスコアにつながる。 3)既存のPRMは最終回答ステップに集中し,BoN最適化PRMにおけるプロセスから結果に基づく評価へのシフトを明らかにした。これらの課題に対処するために、MC推定をLLM-as-a-judgeと効果的に統合するコンセンサスフィルタリング機構を開発し、応答レベルとステップレベルのメトリクスを組み合わせたより包括的な評価フレームワークを提案する。このメカニズムに基づき,BoN評価におけるモデル性能とデータ効率の両面において,ステップワイドな誤り識別タスクを著しく改善する。最後に、我々は、既存のオープンソース代替品より優れている新しい最先端のPRMをリリースし、プロセス監視モデルの構築における将来の研究のための実践的ガイドラインを提供する。

関連論文リスト

Socratic-PRMBench: Benchmarking Process Reward Models with Systematic Reasoning Patterns [79.42805969325036]
プロセス・リワード・モデル(PRM)は複雑な推論と問題解決に不可欠である。 PRMは、推論プロセス中に様々な推論パターンの下でエラーを特定する必要がある。既存のベンチマークは主に、段階的に正しいPRMを評価することに焦点を当てている。 Socratic-PRMBenchは、6つの推論パターンでPRMを体系的に評価する新しいベンチマークである。
論文参考訳（メタデータ） (2025-05-29T14:26:53Z)
From Mathematical Reasoning to Code: Generalization of Process Reward Models in Test-Time Scaling [32.72867198629561]
プレトレーニングと報奨モデルトレーニング FLOP の相互作用について検討し,PRM の効率と精度への影響を評価する。以上の結果から,数式データセットに基づいてトレーニングしたPRMは,コード生成に適した性能を示すことがわかった。
論文参考訳（メタデータ） (2025-05-24T12:44:15Z)
Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning [49.21525229904197]
本研究では,長いCoT推論プロセスのスコアリングに特化して設計されたPRMのための新しいデータアノテーション手法を提案する。本稿では, 誤り伝播と誤認識の概念を導入し, PRMの効果的な自己訂正行動と誤ったステップに基づく推論の両方を識別する能力を高めた。我々のPRMは,探索誘導,BoN,F1スコアなど,様々な指標で優れた性能を実現している。
論文参考訳（メタデータ） (2025-05-20T14:12:05Z)
R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
Retrieval-Augmented Process Reward Model for Generalizable Mathematical Reasoning [32.850036320802474]
本稿では,OOD問題に対処するための新しいフレームワークであるRetrieval-Augmented Process Reward Model(RetrievalPRM)を紹介する。 RetrievalPRMは2段階の検索強化機構を利用して、セマンティックに類似した質問やステップをウォームアップとして検索する。我々の実験では、RetrievalPRMは複数の実世界のデータセットで既存のベースラインを上回ります。
論文参考訳（メタデータ） (2025-02-20T08:40:09Z)
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2025-01-31T02:39:07Z)
ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。 ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文参考訳（メタデータ） (2025-01-14T05:56:26Z)
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models [28.74956741932006]
PRMベンチ(PRM Bench)は, PRMの微細な誤差検出機能を評価するための, プロセスレベルのベンチマークである。 PRMBenchは、6,216の慎重に設計された問題と83,456のステップレベルラベルで構成され、複数の次元にわたるモデルを評価する。
論文参考訳（メタデータ） (2025-01-06T16:31:45Z)
Entropy-Regularized Process Reward Model [30.279394036823092]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。 KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。 MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-12-15T01:09:23Z)
Process Reward Model with Q-Value Rankings [18.907163177605607]
プロセス・リワード・モデリング(PRM)は複雑な推論と意思決定に不可欠である。本稿では,マルコフ決定プロセスの文脈でPRMを再定義する新しいフレームワークであるProcess Q-value Model(PQM)を紹介する。 PQMは、新しい比較損失関数に基づいてQ値ランキングを最適化し、シーケンシャルな決定の中で複雑なダイナミクスをキャプチャするモデルの能力を向上する。
論文参考訳（メタデータ） (2024-10-15T05:10:34Z)
RMB: Comprehensively Benchmarking Reward Models in LLM Alignment [44.84304822376291]
リワードモデル(RM)は、大きな言語モデル(LLM)のアライメントをガイドする。我々は、49以上の実世界のシナリオをカバーする包括的なRMベンチマークであるRMBを提案する。ベンチマークに基づいて、最先端のRMについて広範な分析を行う。
論文参考訳（メタデータ） (2024-10-13T16:06:54Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。 PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-04-01T07:49:11Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。