論文の概要: ProcessBench: Identifying Process Errors in Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2412.06559v1
- Date: Mon, 09 Dec 2024 15:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:59.975339
- Title: ProcessBench: Identifying Process Errors in Mathematical Reasoning
- Title(参考訳): ProcessBench: 数学的推論におけるプロセスエラーの特定
- Authors: Chujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin,
- Abstract要約: 本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。
ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
- 参考スコア(独自算出の注目度): 62.80402845414901
- License:
- Abstract: As language models regularly make mistakes when solving math problems, automated identification of errors in the reasoning process becomes increasingly significant for their scalable oversight. In this paper, we introduce ProcessBench for measuring the ability to identify erroneous steps in mathematical reasoning. It consists of 3,400 test cases, primarily focused on competition- and Olympiad-level math problems. Each test case contains a step-by-step solution with error location annotated by human experts. Models are required to identify the earliest step that contains an error, or conclude that all steps are correct. We conduct extensive evaluation on ProcessBench, involving two types of models: process reward models (PRMs) and critic models, where for the latter we prompt general language models to critique each solution step by step. We draw two main observations: (1) Existing PRMs typically fail to generalize to more challenging math problems beyond GSM8K and MATH. They underperform both critic models (i.e., prompted general language models) and our own trained PRM that is straightforwardly fine-tuned on the PRM800K dataset. (2) The best open-source model, QwQ-32B-Preview, has demonstrated the critique capability competitive with the proprietary model GPT-4o, despite that it still lags behind the reasoning-specialized o1-mini. We hope ProcessBench can foster future research in reasoning process assessment, paving the way toward scalable oversight of language models.
- Abstract(参考訳): 言語モデルが数学の問題を解決する際にしばしば間違いを犯すため、推論プロセスにおけるエラーの自動識別は、スケーラブルな監視のためにますます重要になる。
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを提案する。
テストケースは3,400で、主にコンペティションとオリンピアードレベルの数学問題に焦点を当てている。
各テストケースには、人間の専門家によって注釈付けされたエラー位置を含むステップバイステップのソリューションが含まれている。
モデルは、エラーを含む最初期のステップを特定したり、すべてのステップが正しいと結論付けるために必要となる。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範な評価を行う。
1)既存のPRMは、GSM8KとMATHを超えたより難しい数学問題に一般化できない。
彼らは、批判モデル(すなわち、一般の言語モデルを引き寄せる)と、PRM800Kデータセットで直に微調整される訓練済みのPRMの両方を過小評価します。
2) 最高のオープンソースモデルであるQwQ-32B-Previewは、プロプライエタリなモデルであるGPT-4oと競合する批判能力を示した。
ProcessBenchは、推論プロセスの評価における将来の研究を促進し、言語モデルのスケーラブルな監視への道を開くことを願っています。
関連論文リスト
- Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - OpenAI-o1 AB Testing: Does the o1 model really do good reasoning in math problem solving? [2.851415653352522]
OpenAIによるOrion-1モデルは、以前の大規模言語モデルよりも堅牢な論理的推論能力を持つと言われている。
IMO(International Mathematics Olympiad)問題からなる2つのデータセットを用いて比較実験を行った。
モデルが問題や解の記憶に依存していることを示す重要な証拠は存在しないと結論付けている。
論文 参考訳(メタデータ) (2024-11-09T14:47:52Z) - SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights [89.56181323849512]
より小規模な学生モデルの推論と反映の両方を教師モデルを用いて監督し,修正するフレームワークであるSuperCorrectを提案する。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。
提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。
我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文 参考訳(メタデータ) (2024-10-07T06:37:25Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。