Fugu-MT 論文翻訳(概要): MathArena: Evaluating LLMs on Uncontaminated Math Competitions

論文の概要: MathArena: Evaluating LLMs on Uncontaminated Math Competitions

arxiv url: http://arxiv.org/abs/2505.23281v1
Date: Thu, 29 May 2025 09:28:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.788458
Title: MathArena: Evaluating LLMs on Uncontaminated Math Competitions
Title（参考訳）: MathArena: 未汚染の数学コンペティションにおけるLLMの評価
Authors: Mislav Balunović, Jasper Dekoninck, Ivo Petrov, Nikola Jovanović, Martin Vechev,
Abstract要約: MathArenaは、大きな言語モデル(LLM)を評価するための新しいベンチマークである。繰り返し行われる数学コンペは、高品質で困難な問題のストリームを提供する。 MathArenaは、証明書込み機能の最初のベンチマークでもある。
参考スコア（独自算出の注目度）: 0.9320657506524149
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid advancement of reasoning capabilities in large language models (LLMs) has led to notable improvements on mathematical benchmarks. However, many of the most commonly used evaluation datasets (e.g., AIME 2024) are widely available online, making it difficult to disentangle genuine reasoning from potential memorization. Furthermore, these benchmarks do not evaluate proof-writing capabilities, which are crucial for many mathematical tasks. To address this, we introduce MathArena, a new benchmark based on the following key insight: recurring math competitions provide a stream of high-quality, challenging problems that can be used for real-time evaluation of LLMs. By evaluating models as soon as new problems are released, we effectively eliminate the risk of contamination. Using this framework, we find strong signs of contamination in AIME 2024. Nonetheless, evaluations on harder competitions, such as SMT 2025 -- published well after model release dates -- demonstrate impressive reasoning capabilities in top-performing models. MathArena is also the first benchmark for proof-writing capabilities. On USAMO 2025, even top models score below 25%, far behind their performance on final-answer tasks. So far, we have evaluated 30 models across five competitions, totaling 149 problems. As an evolving benchmark, MathArena will continue to track the progress of LLMs on newly released competitions, ensuring rigorous and up-to-date evaluation of mathematical reasoning.
Abstract（参考訳）: 大規模言語モデル(LLM)における推論能力の急速な進歩は、数学的なベンチマークにおいて顕著な改善をもたらした。しかし、最も一般的に使われている評価データセット(例えば、AIME 2024)はオンラインで広く利用されており、暗記の可能性から真の推論を解き放つことは困難である。さらに、これらのベンチマークは、多くの数学的なタスクに欠かせない証明書込み能力を評価しない。この問題に対処するために、我々は以下の重要な洞察に基づく新しいベンチマークであるMathArenaを紹介した。繰り返し数学の競争は、LLMのリアルタイム評価に使用できる高品質で困難な問題のストリームを提供する。新たな問題の発生と同時にモデルを評価することにより,汚染リスクを効果的に排除する。この枠組みを用いて, AIME 2024 に汚染の強い兆候を見出した。それにもかかわらず、SMT 2025(モデルリリースの日から順調に発行された)のような厳しい競争に対する評価は、最高のパフォーマンスのモデルで印象的な推論能力を示している。 MathArenaは、証明書込み機能の最初のベンチマークでもある。 USAMO 2025では、上位モデルでさえ25%以下であり、最終回答タスクのパフォーマンスよりもはるかに遅れている。これまでのところ、5つのコンペで30のモデルを評価しており、合計で149の問題がある。進化するベンチマークとして、MathArenaは、新しくリリースされた競争におけるLSMの進捗を引き続き追跡し、厳密かつ最新の数学的推論の評価を保証する。

関連論文リスト

RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics [21.453837660747844]
大規模言語モデル(LLM)における数学的推論を評価するための既存のベンチマークは、主に競合問題、公式な証明、人工的な問題に依存している。論文や数理フォーラムから直接派生した新しいベンチマークであるRealMathを導入し,実数理タスクにおけるLLMの能力を評価する。
論文参考訳（メタデータ） (2025-05-18T23:32:46Z)
Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad [0.8030359871216614]
我々は2025年のUSAMOの6つの問題に対して、最先端の推論モデルを評価する。 Gemini-2.5-Proのみが25%という非自明なスコアを達成している。以上の結果から,現在のLLMは厳密な数学的推論作業には不十分であることが示唆された。
論文参考訳（メタデータ） (2025-03-27T19:21:05Z)
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。 OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文参考訳（メタデータ） (2025-03-27T11:20:17Z)
PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文参考訳（メタデータ） (2025-03-04T06:32:30Z)
UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts [7.856746367263317]
本稿では,大規模言語モデルの評価を目的とした頑健な評価フレームワークであるUTMath Benchmarkを紹介する。これは9つの数学領域にまたがる1053個の最先端問題を含み、平均68個のテストケースがある。最高の性能モデルであるo1-miniはわずか32.57%の問題を解き、o1-previewは27.16%、GPT-4oは26.93%であった。
論文参考訳（メタデータ） (2024-11-11T18:59:02Z)
Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文参考訳（メタデータ） (2024-10-10T14:39:33Z)
MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文参考訳（メタデータ） (2024-10-07T02:30:07Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。 ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。