論文の概要: Scaling Generative Verifiers For Natural Language Mathematical Proof Verification And Selection
- arxiv url: http://arxiv.org/abs/2511.13027v1
- Date: Mon, 17 Nov 2025 06:25:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.720474
- Title: Scaling Generative Verifiers For Natural Language Mathematical Proof Verification And Selection
- Title(参考訳): 自然言語の数学的証明と選択のための生成検証のスケーリング
- Authors: Sadegh Mahdavi, Branislav Kisacanin, Shubham Toshniwal, Wei Du, Ivan Moshkov, George Armstrong, Renjie Liao, Christos Thrampoulidis, Igor Gitman,
- Abstract要約: 大規模言語モデルは、最終解答問題において顕著な成功を収めた。
しかし、これらのソリューションの根底にある理由はしばしば欠陥がある。
モデル性能のより信頼性の高い尺度を得るために,証明ベースと最終回答推論の両方を評価した。
- 参考スコア(独自算出の注目度): 42.21636315733425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have achieved remarkable success on final-answer mathematical problems, largely due to the ease of applying reinforcement learning with verifiable rewards. However, the reasoning underlying these solutions is often flawed. Advancing to rigorous proof-based mathematics requires reliable proof verification capabilities. We begin by analyzing multiple evaluation setups and show that focusing on a single benchmark can lead to brittle or misleading conclusions. To address this, we evaluate both proof-based and final-answer reasoning to obtain a more reliable measure of model performance. We then scale two major generative verification methods (GenSelect and LLM-as-a-Judge) to millions of tokens and identify their combination as the most effective framework for solution verification and selection. We further show that the choice of prompt for LLM-as-a-Judge significantly affects the model's performance, but reinforcement learning can reduce this sensitivity. However, despite improving proof-level metrics, reinforcement learning does not enhance final-answer precision, indicating that current models often reward stylistic or procedural correctness rather than mathematical validity. Our results establish practical guidelines for designing and evaluating scalable proof-verification and selection systems.
- Abstract(参考訳): 大規模言語モデルは、検証可能な報酬で強化学習を適用することの容易さから、最終回答の数学的問題において顕著な成功を収めた。
しかし、これらのソリューションの根底にある理由はしばしば欠陥がある。
厳密な証明に基づく数学への適応には、信頼できる証明検証能力が必要である。
まず、複数の評価設定を分析し、単一のベンチマークにフォーカスすることで、不安定な結果や誤解を招く結果につながることを示します。
そこで我々は,モデル性能のより信頼性の高い指標を得るために,証明ベースと最終回答推論の両方を評価する。
次に、GenSelect と LLM-as-a-Judge の2つの主要な生成検証手法を数百万のトークンに拡張し、それらの組み合わせをソリューション検証と選択の最も効果的なフレームワークとして同定する。
さらに,LLM-as-a-Judgeのプロンプトの選択がモデルの性能に大きく影響することを示した。
しかし、証明レベルの指標の改善にもかかわらず、強化学習は最終回答精度を向上しないため、現在のモデルは数学的妥当性よりもスタイリスティックまたは手続き的正当性に報いることが多い。
本研究は,スケーラブルな証明検証・選択システムの設計・評価のための実践的ガイドラインを構築した。
関連論文リスト
- Calibrated Reasoning: An Explanatory Verifier for Dynamic and Efficient Problem-Solving [2.357104785442987]
そこで本稿では,評価スコアと関連する自然言語推論値を生成するペアワイズ説明検証手法を提案する。
我々の検証器は、ベスト・オブ・nやセルフ・リフレクションのようなテスト時間戦略の精度と効率を向上させる。
論文 参考訳(メタデータ) (2025-09-24T01:36:00Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Generative Verifiers: Reward Modeling as Next-Token Prediction [29.543787728397643]
本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。
標準検証器と比較して、そのような生成検証器(genRM)はLLMのいくつかの利点の恩恵を受けることができる。
我々は、MATHで28%$rightarrow$44.6%、MMLU抽象代数学で37.9%$rightarrow$53.5%の改善を観察する。
論文 参考訳(メタデータ) (2024-08-27T17:57:45Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。