Fugu-MT 論文翻訳(概要): Pessimistic Verification for Open Ended Math Questions

論文の概要: Pessimistic Verification for Open Ended Math Questions

arxiv url: http://arxiv.org/abs/2511.21522v1
Date: Wed, 26 Nov 2025 15:52:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-27 18:37:59.18104
Title: Pessimistic Verification for Open Ended Math Questions
Title（参考訳）: オープンエンド数学質問に対する悲観的検証
Authors: Yanxing Huang, Zihan Tang, Zejin Lin, Peng Li, Yang Liu,
Abstract要約: 検証性能の重要な制限は、エラー検出の能力にある。悲観的検証では、同じ証明に対して複数の並列検証を構築し、その1つが誤りを報告した場合、証明は誤りとみなされる。この単純な手法は、かなりの計算資源を得ることなく、多くの数学検証ベンチマークで性能を著しく向上させる。
参考スコア（独自算出の注目度）: 6.715841196629822
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The key limitation of the verification performance lies in the ability of error detection. With this intuition we designed several variants of pessimistic verification, which are simple workflows that could significantly improve the verification of open-ended math questions. In pessimistic verification we construct multiple parallel verifications for the same proof, and the proof is deemed incorrect if any one of them reports an error. This simple technique significantly improves the performance across many math verification benchmarks without incurring substantial computational resources. Its token efficiency even surpassed extended long-CoT in test-time scaling. Our case studies further indicate that the majority of false negatives in stronger models are actually caused by annotation errors in the original dataset, so our method's performance is in fact underestimated. Self-verification for mathematical problems can effectively improve the reliability and performance of language model outputs, and it also plays a critical role in enabling long-horizon mathematical tasks. We believe that research on pessimistic verification will help enhance the mathematical capabilities of language models across a wide range of tasks.
Abstract（参考訳）: 検証性能の重要な制限は、エラー検出の能力にある。この直感で数種類の悲観的検証を設計し、これは単純なワークフローであり、オープンエンド数学の質問の検証を大幅に改善する。悲観的検証では、同じ証明に対して複数の並列検証を構築し、その1つが誤りを報告した場合、証明は誤りとみなされる。この単純な手法は、かなりの計算資源を得ることなく、多くの数学検証ベンチマークで性能を著しく向上させる。そのトークン効率は、テストタイムスケーリングにおいて拡張長CoTを超えた。ケーススタディでは、より強いモデルにおける偽陰性の大部分は、元々のデータセットにおけるアノテーションエラーによって引き起こされていることが示されており、本手法の性能は実際過小評価されている。数学的問題に対する自己検証は、言語モデル出力の信頼性と性能を効果的に向上させ、また、長期の数学的タスクを実現する上でも重要な役割を果たす。悲観的検証の研究は、幅広いタスクにわたる言語モデルの数学的能力を高めるのに役立つと信じている。

関連論文リスト

AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文参考訳（メタデータ） (2026-02-10T06:58:26Z)
Proof-RM: A Scalable and Generalizable Reward Model for Math Proof [67.53066972145183]
大規模言語モデル(LLM)は,*検証リワード*(RLVR)を用いた強化学習を通じて,強力な数学推論能力を示した。多くの先進的な数学的問題は証明ベースであり、単純な解マッチングによって証明の真性を決定するための保証された方法はない。自動検証を実現するには、完全な証明プロセスを確実に評価できるリワードモデル(RM)が必要である。
論文参考訳（メタデータ） (2026-02-02T17:42:53Z)
When Does Verification Pay Off? A Closer Look at LLMs as Solution Verifiers [11.937771430269201]
本稿では,37大言語モデル(LLM)の体系的研究について述べる。自己検証と同一家族内および異なる家族間での検証を比較した。検証者ゲインや偽陽性率尺度などのメトリクスをモデルサイズと後トレーニングで分析し,データセットの妥当性の違いを特徴付ける。
論文参考訳（メタデータ） (2025-12-02T00:51:14Z)
Scaling Generative Verifiers For Natural Language Mathematical Proof Verification And Selection [42.21636315733425]
大規模言語モデルは、最終解答問題において顕著な成功を収めた。しかし、これらのソリューションの根底にある理由はしばしば欠陥がある。モデル性能のより信頼性の高い尺度を得るために,証明ベースと最終回答推論の両方を評価した。
論文参考訳（メタデータ） (2025-11-17T06:25:35Z)
Understanding the Role of Training Data in Test-Time Scaling [56.12341509545198]
線形回帰のための文脈内重み予測タスクを訓練した変圧器の試験時間スケーリング性能について検討した。多様な、関連性があり、難しいタスクセットでのトレーニングが、テスト時間のスケーリングに最高のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2025-10-04T01:38:48Z)
Examining False Positives under Inference Scaling for Mathematical Reasoning [83.97128486951999]
言語モデルにおける数学的問題解決における偽陽性解の有効性を体系的に検討する。実験結果から,(1)異なるモデル,データセット,復号化手法,(2)サンプリングベース推論時間スケーリング手法では問題を緩和できないこと,(3)pass@N評価基準の方が偽陽性の影響を受けやすいこと,などが明らかになった。
論文参考訳（メタデータ） (2025-02-10T07:49:35Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-06-20T06:42:27Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。 ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
Training Verifiers to Solve Math Word Problems [12.307284507186342]
GSM8Kは8.5Kの高品質な言語学的多様性を持つ小学校数学の単語問題である。最大のトランスモデルでさえ高いテスト性能を達成できないことがわかった。性能を向上させるため,モデル完了の正しさを判定するトレーニング検証器を提案する。
論文参考訳（メタデータ） (2021-10-27T04:49:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。