論文の概要: Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs
- arxiv url: http://arxiv.org/abs/2605.09063v2
- Date: Sun, 17 May 2026 03:15:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.228006
- Title: Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs
- Title(参考訳): Soohak: LLMの研究レベルの数学能力を評価するための数学計算ベンチマーク
- Authors: Guijin Son, Seungone Kim, Catherine Arnett, Hyunwoo Ko, Hyein Lee, Hyeonah Kang, Jiang Longxi, Jin Yun, JungYup Lee, Kyungmin Lee, Sam Yoosuk Kim, Sang Park, Seunghyeok Hong, SeungJae Lee, Seungyeop Yi, Shinae Shin, SunHye Bok, Sunyoung Shin, Yonghoon Ji, Youngtaek Kim, Hanearl Jung, Akari Asai, Graham Neubig, Sean Welleck, Youngjae Yu, Akshelin R, Alexander B. Ivanov, Boboev Muhammadjon, Chaeyoung Han, Christian Stump, Dmitrii Karp, Dohyun Kwon, DoYong Kwon, Duk-Soon Oh, Giovanni Resta, Greta Panova, Huiyun Noh, Hyungryul Baik, Hyungsun Bae, Inomov Mashrafdzhon, Jeewon Kim, Ji Eun Lee, Jiaqi Liu, Jieui Kang, Jimin Kim, Jon-Lark Kim, Junseo Yoon, Junwoo Jo, Kibeom Kim, Kiwoon Kwon, Mario Kummer, Max Mercer, Minjun Kim, Nahyun Lee, Ng Ze-An, Rafał Marcin Łochowski, Raphaël Lachièze-Rey, Ruichen Zhang, Sejin Park, Seonguk Seo, Shin Jaehoon, Sunatullo, Taewoong Eom, Yeachan Park, Yongseok Jang, Youchan Oh, Zhaoyang Wang, Zoltán Kovács,
- Abstract要約: Soohakは64人の数学者によって新たに書かれた439プロブレムのベンチマークである。
データセットは2026年後半に公開され、中間で要求に応じてモデル評価が利用可能になる。
- 参考スコア(独自算出の注目度): 86.49905745865038
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Following the recent achievement of gold-medal performance on the IMO by frontier LLMs, the community is searching for the next meaningful and challenging target for measuring LLM reasoning. Whereas olympiad-style problems measure step-by-step reasoning alone, research-level problems use such reasoning to advance the frontier of mathematical knowledge itself, emerging as a compelling alternative. Yet research-level math benchmarks remain scarce because such problems are difficult to source (e.g., Riemann Bench and FrontierMath-Tier 4 contain 25 and 50 problems, respectively). To support reliable evaluation of next-generation frontier models, we introduce Soohak, a 439-problem benchmark newly authored from scratch by 64 mathematicians. Soohak comprises two subsets. On the Challenge subset, frontier models including Gemini-3-Pro, GPT-5, and Claude-Opus-4.5 reach 30.4%, 26.4%, and 10.4% respectively, leaving substantial headroom, while leading open-weight models such as Qwen3-235B, GPT-OSS-120B, and Kimi-2.5 remain below 15%. Notably, beyond standard problem solving, Soohak introduces a refusal subset that probes a capability intrinsic to research mathematics: recognizing ill-posed problems and pausing rather than producing confident but unjustified answers. On this subset, no model exceeds 50%, identifying refusal as a new optimization target that current models do not directly address. To prevent contamination, the dataset will be publicly released in late 2026, with model evaluations available upon request in the interim.
- Abstract(参考訳): LLMによるICOのゴールド・メディカル・パフォーマンスの最近の成果に続いて、コミュニティはLLM推論を測るための次の有意義で挑戦的なターゲットを探している。
Olympiadスタイルの問題は、ステップバイステップの推論のみを測るが、研究レベルの問題は、そのような推論を使って数学的知識のフロンティアを前進させ、魅力的な代替手段として浮上する。
しかし、そのような問題は出典が難しい(例えば、リーマン・ベンチとフロンティア・マス=ティア4はそれぞれ25と50の問題を含んでいる)ため、研究レベルのベンチマークは依然として乏しい。
次世代フロンティアモデルの信頼性評価を支援するため,64人の数学者が新たに作成した439プロブレムベンチマークであるSoohakを紹介した。
Soohakは2つのサブセットから構成される。
Challengeサブセットでは、Gemini-3-Pro、GPT-5、Claude-Opus-4.5といったフロンティアモデルはそれぞれ30.4%、26.4%、そして10.4%に達し、Qwen3-235B、GPT-OSS-120B、Kimi-2.5といったオープンウェイトモデルが15%以下である。
特に、標準的な問題解決の他に、Soohakは数学の研究に固有の能力を探索する拒絶部分集合を導入している。
このサブセットでは、モデルが50%を超えることはなく、リファレルを現在のモデルが直接対応しない新しい最適化ターゲットとして特定する。
汚染を防ぐため、データセットは2026年末に公開され、中間の要求に応じてモデル評価が利用可能になる。
関連論文リスト
- LiveMathematicianBench: A Live Benchmark for Mathematician-Level Reasoning with Proof Sketches [61.30693283718321]
研究レベルの数学的推論のための動的多重選択ベンチマークであるLiveMathematicianBenchを提案する。
新たに発表された定理で評価を基礎づけることで、記憶されたパターンを超えた現実的なテストベッドを提供する。
このパイプラインは、高レベルな証明戦略を使用して、妥当だが無効な解選択を構築する。
論文 参考訳(メタデータ) (2026-04-02T08:22:17Z) - From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics [79.81905350372067]
我々は文脈的数学的推論を通してギャップを研究する。
AIMEとMATH-500の問題を2つのコンテキスト設定に再利用するベンチマークであるContextMATHを紹介する。
オープンソースモデルはSGとCSで13、34ポイント減少し、プロプライエタリモデルは13、20ポイント減少している。
論文 参考訳(メタデータ) (2026-01-30T14:56:04Z) - IMProofBench: Benchmarking AI on Research-Level Mathematical Proof Generation [4.991157581428135]
IMProofBenchは、専門家数学者によって開発された39のピアレビューされた問題からなるプライベートベンチマークである。
それぞれの問題は詳細な証明を必要とし、最終的な答えを持つサブプロブレムと組み合わせられる。
以前のベンチマークとは異なり、評価設定は現実的な研究環境をシミュレートする。
論文 参考訳(メタデータ) (2025-09-30T10:50:37Z) - RIMO: An Easy-to-Evaluate, Hard-to-Solve Olympiad Benchmark for Advanced Mathematical Reasoning [26.173204350710833]
RIMOは、評価ノイズを排除しつつ、オリンピアードのピークの難しさを抑えるために設計された2トラックのベンチマークである。
最初のトラックであるRIMO-Nは、335の問題を書き換えて1つの独特な整数応答を許容し、決定論的正当性チェックを可能にする。
第2のトラックであるRIMO-Pは、エキスパートチェックされたソリューションに関する456の証明問題を特徴とし、ステップバイステップの推論プロセスを評価するためにサブプロブレムのシーケンスに分解される。
論文 参考訳(メタデータ) (2025-09-09T13:13:51Z) - MathArena: Evaluating LLMs on Uncontaminated Math Competitions [4.655668424508813]
MathArenaは、大きな言語モデル(LLM)を評価するための新しいベンチマークである。
繰り返し行われる数学コンペは、高品質で困難な問題のストリームを提供する。
MathArenaは、証明書込み機能の最初のベンチマークでもある。
論文 参考訳(メタデータ) (2025-05-29T09:28:06Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving [40.46491587796371]
我々はGeoEvalベンチマーク、2,000問題の主要サブセット、750問題サブセット、2000問題の追加サブセット、300問題のハードサブセットを含む包括的コレクションを紹介する。
これらのサブセットにおける10個のLLMとMMの評価から、WizardMathモデルは、主サブセットでは55.67%の精度で、ハードサブセットでは6.00%の精度しか達成していないことが分かる。
論文 参考訳(メタデータ) (2024-02-15T16:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。