論文の概要: Riemann-Bench: A Benchmark for Moonshot Mathematics
- arxiv url: http://arxiv.org/abs/2604.06802v1
- Date: Wed, 08 Apr 2026 08:16:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.420799
- Title: Riemann-Bench: A Benchmark for Moonshot Mathematics
- Title(参考訳): Riemann-Bench: ムーンショット数学のベンチマーク
- Authors: Suhaas Garre, Erik Knutsen, Sushant Mehta, Edwin Chen,
- Abstract要約: 近年のAIシステムは国際数学オリンピックでゴールド・メディカルレベルのパフォーマンスを達成した。
我々は、研究レベルの数学におけるAIシステムを評価するために設計された25のエキスパートキュレートされた問題のプライベートベンチマークであるベンチを紹介する。
- 参考スコア(独自算出の注目度): 0.12430801435092285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent AI systems have achieved gold-medal-level performance on the International Mathematical Olympiad, demonstrating remarkable proficiency at competition-style problem solving. However, competition mathematics represents only a narrow slice of mathematical reasoning: problems are drawn from limited domains, require minimal advanced machinery, and can often reward insightful tricks over deep theoretical knowledge. We introduce \bench{}, a private benchmark of 25 expert-curated problems designed to evaluate AI systems on research-level mathematics that goes far beyond the olympiad frontier. Problems are authored by Ivy League mathematics professors, graduate students, and PhD-holding IMO medalists, and routinely took their authors weeks to solve independently. Each problem undergoes double-blind verification by two independent domain experts who must solve the problem from scratch, and yields a unique, closed-form solution assessed by programmatic verifiers. We evaluate frontier models as unconstrained research agents, with full access to coding tools, search, and open-ended reasoning, using an unbiased statistical estimator computed over 100 independent runs per problem. Our results reveal that all frontier models currently score below 10\%, exposing a substantial gap between olympiad-level problem solving and genuine research-level mathematical reasoning. By keeping the benchmark fully private, we ensure that measured performance reflects authentic mathematical capability rather than memorization of training data.
- Abstract(参考訳): 最近のAIシステムは、国際数学オリンピアードでゴールド・メディカルレベルのパフォーマンスを達成し、競争スタイルの問題解決に顕著な熟練を誇示している。
問題は限られた領域から引き出され、最小限の高度な機械を必要とし、しばしば深い理論的な知識よりも洞察力に富んだトリックを報酬することができる。
これは、オリンピアドフロンティアをはるかに超越した研究レベルの数学でAIシステムを評価するために設計された25のエキスパートキュレートされた問題のプライベートベンチマークである。
問題はアイビーリーグの数学教授、大学院生、博士号を持つIMOメダリストによって作成され、著者が独立して解決するのに数週間を要した。
各問題は、この問題をスクラッチから解決しなければならない2人の独立したドメイン専門家による二重盲検検証が行われ、プログラム的検証によって評価された一意の閉形式解が得られる。
我々は,フロンティアモデルを,符号化ツール,検索,オープンエンド推論に完全アクセス可能な制約のない研究エージェントとして評価する。
その結果,全てのフロンティアモデルが10倍以下であり,オリンピアードレベルの問題解決と真の研究レベルの数学的推論との間に大きなギャップがあることが判明した。
ベンチマークを完全に非公開にすることで、測定された性能がトレーニングデータの記憶よりも正確な数学的能力を反映することを保証する。
関連論文リスト
- Towards Autonomous Mathematics Research [48.29504087871558]
Aletheiaは、自然言語のエンドツーエンドの解を反復的に生成し、検証し、修正する数学研究エージェントである。
具体的には、AletheiaはGemini Deep Thinkの高度なバージョンで、推論の問題に挑戦している。
我々は、オリンピアード問題から博士レベルのエクササイズまで、AI支援数学研究におけるいくつかのマイルストーンを通じて、アレクシアを実証する。
論文 参考訳(メタデータ) (2026-02-10T18:50:15Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。
提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。
提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-03-04T06:32:30Z) - FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI [8.32177898148028]
FrontierMath(フロンティアマス、フロンティアマス、FrontierMath)は、数学者が考案し検証した何百もの数学問題のベンチマークである。
現在の最先端のAIモデルは、問題の2%未満を解決し、AI能力と数学的コミュニティの長所との間に大きなギャップが浮かび上がっている。
AIシステムが専門家レベルの数学的能力に向かって進むにつれ、FrontierMathは彼らの進歩を定量化する厳格なテストベッドを提供する。
論文 参考訳(メタデータ) (2024-11-07T17:07:35Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。