Fugu-MT 論文翻訳(概要): Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math

論文の概要: Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math

arxiv url: http://arxiv.org/abs/2602.06291v1
Date: Fri, 06 Feb 2026 01:10:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 22:18:26.177891
Title: Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math
Title（参考訳）: 解決できないことを判断する:Oracleによる研究レベルの数学評価の連続に基づくアプローチ
Authors: Guijin Son, Donghun Yang, Hitesh Laxmichand Patel, Hyunwoo Ko, Amit Agarwal, Sunghee Ahn, Kyong-Ha Lee, Youngjae Yu,
Abstract要約: 本研究では,その価値を文脈内見本として検証し,関連する問題を解き明かすオラクルフリー評価器であるConsequence-Based Utilityを提案する。提案手法は, 1 つの専門家による解と 9 つの LLM 生成解をそれぞれ組み合わせた,研究レベルの数学問題のオリジナルセットに基づいて評価する。特に、Consequence-Based Utilityは、報酬モデル、生成的報酬モデル、LLM審査員のランキング品質を一貫して上回る。
参考スコア（独自算出の注目度）: 21.001217194182995
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent progress in reasoning models suggests that generating plausible attempts for research-level mathematics may be within reach, but verification remains a bottleneck, consuming scarce expert time. We hypothesize that a meaningful solution should contain enough method-level information that, when applied to a neighborhood of related questions, it should yield better downstream performance than incorrect solutions. Building on this idea, we propose \textbf{Consequence-Based Utility}, an oracle-free evaluator that scores each candidate by testing its value as an in-context exemplar in solving related yet verifiable questions. Our approach is evaluated on an original set of research-level math problems, each paired with one expert-written solution and nine LLM-generated solutions. Notably, Consequence-Based Utility consistently outperforms reward models, generative reward models, and LLM judges on ranking quality. Specifically, for GPT-OSS-120B, it improves Acc@1 from 67.2 to 76.3 and AUC from 71.4 to 79.6, with similarly large AUC gains on GPT-OSS-20B (69.0 to 79.2). Furthermore, compared to LLM-Judges, it also exhibits a larger solver-evaluator gap, maintaining a stronger correct-wrong separation even on instances where the underlying solver often fails to solve.
Abstract（参考訳）: 推論モデルの最近の進歩は、研究レベルの数学に対するもっともらしい試みが、到達範囲内にあることを示唆しているが、検証は依然としてボトルネックであり、専門家の時間が不足していることを示唆している。意味のある解には十分な方法論レベルの情報が含まれるべきであり、関連する質問の近傍に適用すると、誤った解よりも下流のパフォーマンスが向上するはずだと仮定する。このアイデアに基づいて,本論文では,各候補を評価対象として評価するオラクルフリーな評価器である「textbf{Consequence-Based Utility}」を提案する。提案手法は, 1 つの専門家による解と 9 つの LLM 生成解をそれぞれ組み合わせた,研究レベルの数学問題のオリジナルセットに基づいて評価する。特に、Consequence-Based Utilityは、報酬モデル、生成的報酬モデル、LLM審査員のランキング品質を一貫して上回る。特に GPT-OSS-120B の場合、Acc@1 は 67.2 から 76.3 に改善され、AUC は 71.4 から 79.6 に改善された。さらに、LLM-Judgesと比較すると、解解器と評価器のギャップが大きくなり、基礎となる解器が解けない場合においても、より強い正弦分離が維持される。

関連論文リスト

RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty [102.02839046225468]
RankLLMは質問の難しさとモデルの能力の両方を定量化する新しいフレームワークである。複数のドメインにまたがる35,550の質問に対して30のモデルを評価する。
論文参考訳（メタデータ） (2026-02-12T21:28:46Z)
Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability [129.1296673737603]
大規模言語モデル(LLM)は、ステップ・バイ・ステップ・チェーン・オブ・シークレット(CoT)推論を通じて強力な推論能力を示している。潜在的には、解のより効率的な探索を容易にするために複雑な問題をサブプロブレムに分解するDAC推論がある。本稿では,DAC型推論能力を高めるために,エンドツーエンド強化学習(RL)フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-02T18:54:54Z)
RefGrader: Automated Grading of Mathematical Competition Proofs using Agentic Workflows [8.700422995850152]
State-of-the-art (SOTA) LLMは、証明ベースのOlympiad問題から、IMO 2025問題のほとんどを解決するまで、進歩してきた。本稿では,90 Gemini 2.5 Pro生成ソリューションのコーパスを用いて,詳細なエラーアノテーションを用いた1-4スケールで評価を行った。分析の結果、モデルが不正確な解を確実にフラグ付けできるが、部分クレジットの割り当て方法にキャリブレーションのギャップがあることがわかった。
論文参考訳（メタデータ） (2025-10-10T05:47:40Z)
Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。 GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文参考訳（メタデータ） (2025-08-27T06:51:48Z)
Evaluating and Improving Large Language Models for Competitive Program Generation [18.564450345359468]
本研究では,大規模言語モデル(LLM)を現実の競合プログラミング問題の解法として評価・改善することを目的とする。 2024年に開催された9つの地域ICPC/CCPCコンテストから117の問題を収集し、4つのフィルタリング基準を設計し、80の問題をキュレートしたベンチマークを構築した。我々は,オンライン審査員(OJ)プラットフォームを通じて,その競争プログラム生成能力を評価し,慎重に設計された基本的なプロンプトで指導する。
論文参考訳（メタデータ） (2025-06-28T17:18:23Z)
HeuriGym: An Agentic Benchmark for LLM-Crafted Heuristics in Combinatorial Optimization [31.908590128913094]
HeuriGymは、LLM(Large Language Models)によって生成されたアルゴリズムを評価するために設計されたエージェントフレームワークである。我々は、コンピュータシステム、ロジスティクス、生物学などの分野における9つの問題に対する9つの最先端モデルを評価し、ツールの使用、計画、適応推論における永続的な制限を明らかにした。我々のオープンソースベンチマークは、科学・工学分野におけるLLMの開発をより効果的で現実的な問題解決に導くことを目的としています。
論文参考訳（メタデータ） (2025-06-09T17:46:47Z)
J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning [54.85131761693927]
意思決定前にLLM審査員に思考を教えるための強化学習フレームワークであるJ1を紹介する。私たちのコアコントリビューションは、検証不可能で検証可能なプロンプトのすべての判断タスクを、検証可能な報酬を持った統一フォーマットに変換することです。次に、RLを用いて8B、32B、70Bのスケールで思考判断を訓練し、彼らが最先端のパフォーマンスを得ることを示す。
論文参考訳（メタデータ） (2025-05-15T14:05:15Z)
Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。 LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文参考訳（メタデータ） (2025-01-24T06:39:38Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文参考訳（メタデータ） (2024-07-13T13:27:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。