論文の概要: Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math
- arxiv url: http://arxiv.org/abs/2602.06291v1
- Date: Fri, 06 Feb 2026 01:10:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.177891
- Title: Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math
- Title(参考訳): 解決できないことを判断する:Oracleによる研究レベルの数学評価の連続に基づくアプローチ
- Authors: Guijin Son, Donghun Yang, Hitesh Laxmichand Patel, Hyunwoo Ko, Amit Agarwal, Sunghee Ahn, Kyong-Ha Lee, Youngjae Yu,
- Abstract要約: 本研究では,その価値を文脈内見本として検証し,関連する問題を解き明かすオラクルフリー評価器であるConsequence-Based Utilityを提案する。
提案手法は, 1 つの専門家による解と 9 つの LLM 生成解をそれぞれ組み合わせた,研究レベルの数学問題のオリジナルセットに基づいて評価する。
特に、Consequence-Based Utilityは、報酬モデル、生成的報酬モデル、LLM審査員のランキング品質を一貫して上回る。
- 参考スコア(独自算出の注目度): 21.001217194182995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in reasoning models suggests that generating plausible attempts for research-level mathematics may be within reach, but verification remains a bottleneck, consuming scarce expert time. We hypothesize that a meaningful solution should contain enough method-level information that, when applied to a neighborhood of related questions, it should yield better downstream performance than incorrect solutions. Building on this idea, we propose \textbf{Consequence-Based Utility}, an oracle-free evaluator that scores each candidate by testing its value as an in-context exemplar in solving related yet verifiable questions. Our approach is evaluated on an original set of research-level math problems, each paired with one expert-written solution and nine LLM-generated solutions. Notably, Consequence-Based Utility consistently outperforms reward models, generative reward models, and LLM judges on ranking quality. Specifically, for GPT-OSS-120B, it improves Acc@1 from 67.2 to 76.3 and AUC from 71.4 to 79.6, with similarly large AUC gains on GPT-OSS-20B (69.0 to 79.2). Furthermore, compared to LLM-Judges, it also exhibits a larger solver-evaluator gap, maintaining a stronger correct-wrong separation even on instances where the underlying solver often fails to solve.
- Abstract(参考訳): 推論モデルの最近の進歩は、研究レベルの数学に対するもっともらしい試みが、到達範囲内にあることを示唆しているが、検証は依然としてボトルネックであり、専門家の時間が不足していることを示唆している。
意味のある解には十分な方法論レベルの情報が含まれるべきであり、関連する質問の近傍に適用すると、誤った解よりも下流のパフォーマンスが向上するはずだと仮定する。
このアイデアに基づいて,本論文では,各候補を評価対象として評価するオラクルフリーな評価器である「textbf{Consequence-Based Utility}」を提案する。
提案手法は, 1 つの専門家による解と 9 つの LLM 生成解をそれぞれ組み合わせた,研究レベルの数学問題のオリジナルセットに基づいて評価する。
特に、Consequence-Based Utilityは、報酬モデル、生成的報酬モデル、LLM審査員のランキング品質を一貫して上回る。
特に GPT-OSS-120B の場合、Acc@1 は 67.2 から 76.3 に改善され、AUC は 71.4 から 79.6 に改善された。
さらに、LLM-Judgesと比較すると、解解器と評価器のギャップが大きくなり、基礎となる解器が解けない場合においても、より強い正弦分離が維持される。
関連論文リスト
- RefGrader: Automated Grading of Mathematical Competition Proofs using Agentic Workflows [8.700422995850152]
State-of-the-art (SOTA) LLMは、証明ベースのOlympiad問題から、IMO 2025問題のほとんどを解決するまで、進歩してきた。
本稿では,90 Gemini 2.5 Pro生成ソリューションのコーパスを用いて,詳細なエラーアノテーションを用いた1-4スケールで評価を行った。
分析の結果、モデルが不正確な解を確実にフラグ付けできるが、部分クレジットの割り当て方法にキャリブレーションのギャップがあることがわかった。
論文 参考訳(メタデータ) (2025-10-10T05:47:40Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - Evaluating and Improving Large Language Models for Competitive Program Generation [18.564450345359468]
本研究では,大規模言語モデル(LLM)を現実の競合プログラミング問題の解法として評価・改善することを目的とする。
2024年に開催された9つの地域ICPC/CCPCコンテストから117の問題を収集し、4つのフィルタリング基準を設計し、80の問題をキュレートしたベンチマークを構築した。
我々は,オンライン審査員(OJ)プラットフォームを通じて,その競争プログラム生成能力を評価し,慎重に設計された基本的なプロンプトで指導する。
論文 参考訳(メタデータ) (2025-06-28T17:18:23Z) - J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning [54.85131761693927]
意思決定前にLLM審査員に思考を教えるための強化学習フレームワークであるJ1を紹介する。
私たちのコアコントリビューションは、検証不可能で検証可能なプロンプトのすべての判断タスクを、検証可能な報酬を持った統一フォーマットに変換することです。
次に、RLを用いて8B、32B、70Bのスケールで思考判断を訓練し、彼らが最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2025-05-15T14:05:15Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。