論文の概要: Beyond Benchmarks: MathArena as an Evaluation Platform for Mathematics with LLMs
- arxiv url: http://arxiv.org/abs/2605.00674v1
- Date: Fri, 01 May 2026 13:56:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.977167
- Title: Beyond Benchmarks: MathArena as an Evaluation Platform for Mathematics with LLMs
- Title(参考訳): ベンチマークを超えて - MathArena による LLM を用いた数学評価プラットフォーム
- Authors: Jasper Dekoninck, Nikola Jovanović, Tim Gehrunger, Kári Rögnvalddson, Ivo Petrov, Chenhao Sun, Martin Vechev,
- Abstract要約: 我々は、その範囲を大幅に広げることで、オリジナルのMathArenaベンチマークを構築します。
MathArenaは現在、証明ベースの競争、研究レベルのarXiv問題、Leanでの正式な証明生成など、より広範なタスクをカバーしています。
最強のモデルであるGPT-5.5は、2026年のアメリカ数学オリンピックで98%、研究レベルの質問で74%に達した。
- 参考スコア(独自算出の注目度): 4.559742899048613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are becoming increasingly capable mathematical collaborators, but static benchmarks are no longer sufficient for evaluating progress: they are often narrow in scope, quickly saturated, and rarely updated. This makes it hard to compare models reliably and track progress over time. Instead, we need evaluation platforms: continuously maintained systems that run, aggregate, and analyze evaluations across many benchmarks to give a comprehensive picture of model performance within a broad domain. In this work, we build on the original MathArena benchmark by substantially broadening its scope from final-answer olympiad problems to a continuously maintained evaluation platform for mathematical reasoning with LLMs. MathArena now covers a much wider range of tasks, including proof-based competitions, research-level arXiv problems, and formal proof generation in Lean. Additionally, we maintain a clear evaluation protocol for all models and regularly design new benchmarks as model capabilities improve to ensure that MathArena remains challenging. Notably, the strongest model, GPT-5.5, now reaches 98% on the 2026 USA Math Olympiad and 74% on research-level questions, showing that frontier models can now comfortably solve extremely challenging mathematical problems. This highlights the importance of continuously maintained evaluation platforms like MathArena to track the rapid progress of LLMs in mathematical reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ますます有能な数学的コラボレータになりつつあるが、静的ベンチマークは進歩を評価するのに十分ではない。
これにより、モデルを確実に比較し、時間とともに進捗を追跡するのが難しくなります。
その代わり、評価プラットフォームが必要です — 広範囲なドメイン内でモデルパフォーマンスの全体像を提供するために、多数のベンチマークで評価を実行、集計、分析する継続的メンテナンスシステムが必要です。
本研究では,従来のMathArenaベンチマークに基づいて,最終回答オリンピアード問題からLLMを用いた数学的推論のための連続的な評価プラットフォームまで,その範囲を大幅に広げた。
MathArenaは現在、証明ベースの競争、研究レベルのarXiv問題、Leanでの正式な証明生成など、より広範なタスクをカバーしています。
さらに、すべてのモデルに対する明確な評価プロトコルを維持し、モデル機能が改善されるにつれて、新しいベンチマークを定期的に設計し、MathArenaが困難であることを保証する。
特に、最強のモデルであるGPT-5.5は、2026年のアメリカ数学オリンピックで98%、研究レベルの質問で74%に達した。
このことは、数学的推論におけるLLMの急速な進歩を追跡するために、MathArenaのような継続的な評価プラットフォームの重要性を強調している。
関連論文リスト
- LemmaBench: A Live, Research-Level Benchmark to Evaluate LLM Capabilities in Mathematics [5.676144562388248]
本研究では,研究レベルの数学において,大規模言語モデルの能力をベンチマークするための新しいアプローチを提案する。
既存のベンチマークは、数学研究のプロキシとして静的で手作業によるコンテストや教科書スタイルの問題に大きく依存している。
代わりに、最新の数学研究結果に基づいてモデルを直接評価する最新のベンチマークを確立する。
論文 参考訳(メタデータ) (2026-02-27T16:52:52Z) - MathArena: Evaluating LLMs on Uncontaminated Math Competitions [4.655668424508813]
MathArenaは、大きな言語モデル(LLM)を評価するための新しいベンチマークである。
繰り返し行われる数学コンペは、高品質で困難な問題のストリームを提供する。
MathArenaは、証明書込み機能の最初のベンチマークでもある。
論文 参考訳(メタデータ) (2025-05-29T09:28:06Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task [47.98592958615677]
数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。
我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。
次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
論文 参考訳(メタデータ) (2025-02-17T11:22:24Z) - MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。
我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-07T02:30:07Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。