論文の概要: AMO-Bench: Large Language Models Still Struggle in High School Math Competitions
- arxiv url: http://arxiv.org/abs/2510.26768v1
- Date: Thu, 30 Oct 2025 17:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.956743
- Title: AMO-Bench: Large Language Models Still Struggle in High School Math Competitions
- Title(参考訳): AMO-Bench: 高校の数学コンペティションで大きな言語モデルがまだ揺るぎない
- Authors: Shengnan An, Xunliang Cai, Xuezhi Cao, Xiaoyu Li, Yehao Lin, Junlin Liu, Xinxuan Lv, Dan Ma, Xuanlin Wang, Ziwen Wang, Shuang Zhou,
- Abstract要約: AMO-Bench は Olympiad レベルの高度な数学的推論ベンチマークである。
AMO-Benchのそれぞれの問題は証明よりも最終解のみを必要とし、評価のために自動的かつ堅牢なグレーディングを可能にする。
AMO-Bench上で26LLMでの実験結果から、最高の性能のモデルでさえ52.4%の精度しか達成できないことが示された。
- 参考スコア(独自算出の注目度): 22.16740349046417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present AMO-Bench, an Advanced Mathematical reasoning benchmark with Olympiad level or even higher difficulty, comprising 50 human-crafted problems. Existing benchmarks have widely leveraged high school math competitions for evaluating mathematical reasoning capabilities of large language models (LLMs). However, many existing math competitions are becoming less effective for assessing top-tier LLMs due to performance saturation (e.g., AIME24/25). To address this, AMO-Bench introduces more rigorous challenges by ensuring all 50 problems are (1) cross-validated by experts to meet at least the International Mathematical Olympiad (IMO) difficulty standards, and (2) entirely original problems to prevent potential performance leakages from data memorization. Moreover, each problem in AMO-Bench requires only a final answer rather than a proof, enabling automatic and robust grading for evaluation. Experimental results across 26 LLMs on AMO-Bench show that even the best-performing model achieves only 52.4% accuracy on AMO-Bench, with most LLMs scoring below 40%. Beyond these poor performances, our further analysis reveals a promising scaling trend with increasing test-time compute on AMO-Bench. These results highlight the significant room for improving the mathematical reasoning in current LLMs. We release AMO-Bench to facilitate further research into advancing the reasoning abilities of language models. https://amo-bench.github.io/
- Abstract(参考訳): AMO-Bench は Olympiad レベルの高度な数学的推論ベンチマークであり,50 の人為的問題を含む,より困難である。
既存のベンチマークは、大規模言語モデル(LLM)の数学的推論能力を評価するために、高校数学コンペティションを広く活用している。
しかし、多くの既存の数学コンペティションは、性能飽和(例えば、AIME24/25)のため、最上位のLCMを評価するのにあまり効果がない。
この問題を解決するため、AMO-Benchは、(1)国際数学オリンピック(IMO)の難易度基準を満たすために専門家によってクロスバリデーションされた50の問題を、(2)データ記憶からの潜在的なパフォーマンスリークを防ぐために、完全に独創的な問題を確実にすることで、より厳密な課題を導入している。
さらに、AMO-Benchにおける各問題は証明よりも最終解のみを必要とするため、自動的かつ堅牢な評価が可能である。
AMO-Bench 上で26個の LLM 実験の結果、最高の性能モデルでさえ AMO-Bench 上では52.4% の精度しか達成せず、ほとんどの LLM は 40% 以下であった。
これらのパフォーマンスの悪化に加えて,AMO-Bench上でのテスト時間計算の増加に伴う,有望なスケーリング傾向がさらに明らかになった。
これらの結果は、現在のLLMにおける数学的推論を改善するための重要な余地を浮き彫りにしている。
我々は AMO-Bench をリリースし,言語モデルの推論能力のさらなる向上を図る。
https://amo-bench.github.io/
関連論文リスト
- RIMO: An Easy-to-Evaluate, Hard-to-Solve Olympiad Benchmark for Advanced Mathematical Reasoning [26.173204350710833]
RIMOは、評価ノイズを排除しつつ、オリンピアードのピークの難しさを抑えるために設計された2トラックのベンチマークである。
最初のトラックであるRIMO-Nは、335の問題を書き換えて1つの独特な整数応答を許容し、決定論的正当性チェックを可能にする。
第2のトラックであるRIMO-Pは、エキスパートチェックされたソリューションに関する456の証明問題を特徴とし、ステップバイステップの推論プロセスを評価するためにサブプロブレムのシーケンスに分解される。
論文 参考訳(メタデータ) (2025-09-09T13:13:51Z) - MathArena: Evaluating LLMs on Uncontaminated Math Competitions [4.655668424508813]
MathArenaは、大きな言語モデル(LLM)を評価するための新しいベンチマークである。
繰り返し行われる数学コンペは、高品質で困難な問題のストリームを提供する。
MathArenaは、証明書込み機能の最初のベンチマークでもある。
論文 参考訳(メタデータ) (2025-05-29T09:28:06Z) - Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad [4.573289946657861]
我々は2025年のUSAMOの6つの問題に対する推論モデルを評価する。
Gemini-2.5-Proのみが25%という非自明なスコアを達成している。
以上の結果から,現在のLLMは厳密な数学的推論作業には不十分であることが示唆された。
論文 参考訳(メタデータ) (2025-03-27T19:21:05Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。