論文の概要: EternalMath: A Living Benchmark of Frontier Mathematics that Evolves with Human Discovery
- arxiv url: http://arxiv.org/abs/2601.01400v1
- Date: Sun, 04 Jan 2026 06:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.27574
- Title: EternalMath: A Living Benchmark of Frontier Mathematics that Evolves with Human Discovery
- Title(参考訳): EternalMath:人間の発見にまつわるフロンティア数学の生きたベンチマーク
- Authors: Jicheng Ma, Guohua Wang, Xinhua Feng, Yiming Liu, Zhichao Hu, Yuhong Liu,
- Abstract要約: 我々は、フロンティア数学的推論を評価するための完全自動化された定理基底パイプラインを提案する。
このパイプラインは、最近のピアレビューされた数学的文献を実行可能で検証可能な推論タスクに変換する。
このパイプラインを適用すると、現代の研究論文から派生した進化的評価スイートである textbfEternalMath が生成される。
- 参考スコア(独自算出の注目度): 23.517907682810932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current evaluations of mathematical reasoning in large language models (LLMs) are dominated by static benchmarks, either derived from competition-style problems or curated through costly expert effort, resulting in limited coverage of research-level mathematics and rapid performance saturation. We propose a fully automated, theorem-grounded pipeline for evaluating frontier mathematical reasoning, which directly transforms recent peer-reviewed mathematical literature into executable and verifiable reasoning tasks. The pipeline identifies constructive or quantitative results, instantiates them into parameterized problem templates, and generates deterministic solutions through execution-based verification, enabling scalable, reproducible, and continuously updatable evaluation without reliance on large-scale expert authoring. By design, this approach supports temporal extensibility, intrinsic correctness checking, and domain-specific customization across mathematical subfields. Applying this pipeline yields \textbf{EternalMath}, an evolving evaluation suite derived from contemporary research papers. Experiments with state-of-the-art LLMs reveal substantial performance gaps, indicating that mathematical reasoning at the research frontier remains far from saturated and underscoring the need for evaluation methodologies that evolve in step with human mathematical discovery.
- Abstract(参考訳): 大規模言語モデル(LLM)における数学的推論の現在の評価は、競合スタイルの問題から導かれるか、高価な専門家の努力によってキュレートされた静的なベンチマークによって支配されている。
本稿では,フロンティアの数学的推論を評価するための完全自動化された定理付きパイプラインを提案し,近年のピアレビューされた数学文献を直接,実行可能かつ検証可能な推論タスクに変換する。
パイプラインは構成的あるいは定量的な結果を特定し、パラメータ化された問題テンプレートにインスタンス化し、実行ベースの検証を通じて決定論的ソリューションを生成する。
設計上、このアプローチは時間的拡張性、本質的な正当性チェック、数学的サブフィールド間のドメイン固有のカスタマイズをサポートする。
このパイプラインを適用すると、現代の研究論文から派生した進化的評価スイートである‘textbf{EternalMath} が得られる。
最先端のLSMを用いた実験では、研究フロンティアでの数学的推論は飽和には程遠いままであり、人間の数学的発見と段階的に進化する評価方法論の必要性が強調されている。
関連論文リスト
- Max It or Miss It: Benchmarking LLM On Solving Extremal Problems [0.0]
数学的極端問題を解くためのベンチマークデータセットExtremBenchを紹介する。
我々は、Qwen3、GPT-OSS、DeepSeekなど、最先端のオープンソースモデルファミリーで評価を行う。
その結果、LLMの極端解法推論能力は、現在の数学ベンチマークと必ずしも一致しないことがわかった。
論文 参考訳(メタデータ) (2025-10-14T21:23:37Z) - IMProofBench: Benchmarking AI on Research-Level Mathematical Proof Generation [4.991157581428135]
IMProofBenchは、専門家数学者によって開発された39のピアレビューされた問題からなるプライベートベンチマークである。
それぞれの問題は詳細な証明を必要とし、最終的な答えを持つサブプロブレムと組み合わせられる。
以前のベンチマークとは異なり、評価設定は現実的な研究環境をシミュレートする。
論文 参考訳(メタデータ) (2025-09-30T10:50:37Z) - RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics [30.778394290919582]
大規模言語モデル(LLM)における数学的推論を評価するための既存のベンチマークは、主に競合問題、公式な証明、人工的な問題に依存している。
論文や数理フォーラムから直接派生した新しいベンチマークであるRealMathを導入し,実数理タスクにおけるLLMの能力を評価する。
論文 参考訳(メタデータ) (2025-05-18T23:32:46Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Token-Supervised Value Models for Enhancing Mathematical Problem-Solving Capabilities of Large Language Models [56.32800938317095]
既存の検証器はテスト時の木探索技術に準最適である。
トークン制御値モデル(TVM)を提案する。
TVMは各トークンに、正しい最終回答に達する確率を反映した確率を割り当てる。
論文 参考訳(メタデータ) (2024-07-12T13:16:50Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。