論文の概要: Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math
- arxiv url: http://arxiv.org/abs/2510.13744v1
- Date: Wed, 15 Oct 2025 16:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.770461
- Title: Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math
- Title(参考訳): Hard2Verify: オープンエンドフロンティア数学のためのステップレベル検証ベンチマーク
- Authors: Shrey Pandit, Austin Xu, Xuan-Phi Nguyen, Yifei Ming, Caiming Xiong, Shafiq Joty,
- Abstract要約: 私たちは500時間以上の人的労力で生成された段階レベルの検証ベンチマークであるHard2Verifyを紹介します。
我々は29人の生成的批評家とプロセス報酬モデルを評価し、いくつかの点を超えて、オープンソースの検証者がクローズドソースモデルを評価することを実証した。
- 参考スコア(独自算出の注目度): 80.46254366870447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM)-based reasoning systems have recently achieved gold medal-level performance in the IMO 2025 competition, writing mathematical proofs where, to receive full credit, each step must be not only correct but also sufficiently supported. To train LLM-based reasoners in such challenging, open-ended settings, strong verifiers capable of catching step-level mistakes are necessary prerequisites. We introduce Hard2Verify, a human-annotated, step-level verification benchmark produced with over 500 hours of human labor. Hard2Verify is designed to rigorously assess step-level verifiers at the frontier: Verifiers must provide step-level annotations or identify the first error in responses generated by frontier LLMs for very recent, challenging, and open-ended math questions. We evaluate 29 generative critics and process reward models, demonstrating that, beyond a few standouts, open-source verifiers lag closed source models. We subsequently analyze what drives poor performance in step-level verification, the impacts of scaling verifier compute, as well as fundamental questions such as self-verification and verification-generation dynamics.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく推論システムは、最近IMO 2025コンペティションで金メダルレベルのパフォーマンスを達成した。
このような困難かつオープンな設定でLCMベースの推論器を訓練するには、ステップレベルの誤りをキャッチできる強力な検証器が必須条件である。
我々は500時間以上の人的労働力で生成された、人間に注釈を付けたステップレベルの検証ベンチマークであるHard2Verifyを紹介した。
Hard2Verifyは、フロンティアにおけるステップレベルの検証を厳格に評価するために設計されている。
我々は29人の生成的批評家とプロセス報酬モデルを評価し、いくつかの点を超えて、オープンソースの検証者がクローズドソースモデルを評価することを実証した。
その後、ステップレベルの検証におけるパフォーマンスの低下、検証器のスケーリングの影響、そして自己検証や検証生成ダイナミクスといった基本的な問題を分析する。
関連論文リスト
- Verification Limits Code LLM Training [23.67882363039948]
コード生成のための大規模言語モデルは、問題解と検証テストの両方がモデルによって生成される合成データにますます依存している。
本研究では,検証設計と戦略がモデル性能に与える影響について検討する。
論文 参考訳(メタデータ) (2025-09-25T07:23:30Z) - Variation in Verification: Understanding Verification Dynamics in Large Language Models [43.829778623942275]
本稿では、連鎖推論を生成して検証を行い、次いで二項判定を行う生成検証器について検討する。
実験の結果,有効性に関する3つの重要な知見が得られた。
論文 参考訳(メタデータ) (2025-09-22T16:36:56Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。
状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。
状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文 参考訳(メタデータ) (2025-02-27T16:23:25Z) - Wrong-of-Thought: An Integrated Reasoning Framework with Multi-Perspective Verification and Wrong Information [14.071887353084126]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の性能向上に欠かせない技術となっている。
2つのコアモジュールを含むWrong-of-Thought (WoT)を提案する。
8つの一般的なデータセットと5つのLLMの実験は、WoTが以前のベースラインをすべて越えていることを示している。
論文 参考訳(メタデータ) (2024-10-06T12:27:21Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。