Fugu-MT 論文翻訳(概要): MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

論文の概要: MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

arxiv url: http://arxiv.org/abs/2604.18584v1
Date: Mon, 20 Apr 2026 17:59:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:53.043756
Title: MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval
Title（参考訳）: MathNet: 数学的推論と検索のためのグローバルマルチモーダルベンチマーク
Authors: Shaden Alshammari, Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman, Antonio Torralba,
Abstract要約: 我々は,Olympiadレベルの数学問題の高品質,大規模,マルチモーダル,多言語データセットであるMathNetを紹介する。 MathNetは47の国、17の言語、そして20年の競争にまたがる。 MathNetは、(i)問題解決、(ii)Math-Aware Retrieval、(iii)Retrieval-Augmented Problem Solvingの3つのタスクをサポートする。
参考スコア（独自算出の注目度）: 36.08923642455691
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mathematical problem solving remains a challenging test of reasoning for large language and multimodal models, yet existing benchmarks are limited in size, language coverage, and task diversity. We introduce MathNet, a high-quality, large-scale, multimodal, and multilingual dataset of Olympiad-level math problems together with a benchmark for evaluating mathematical reasoning in generative models and mathematical retrieval in embedding-based systems. MathNet spans 47 countries, 17 languages, and two decades of competitions, comprising 30,676 expert-authored problems with solutions across diverse domains. In addition to the core dataset, we construct a retrieval benchmark consisting of mathematically equivalent and structurally similar problem pairs curated by human experts. MathNet supports three tasks: (i) Problem Solving, (ii) Math-Aware Retrieval, and (iii) Retrieval-Augmented Problem Solving. Experimental results show that even state-of-the-art reasoning models (78.4% for Gemini-3.1-Pro and 69.3% for GPT-5) remain challenged, while embedding models struggle to retrieve equivalent problems. We further show that retrieval-augmented generation performance is highly sensitive to retrieval quality; for example, DeepSeek-V3.2-Speciale achieves gains of up to 12%, obtaining the highest scores on the benchmark. MathNet provides the largest high-quality Olympiad dataset together with the first benchmark for evaluating mathematical problem retrieval, and we publicly release both the dataset and benchmark at https://mathnet.mit.edu.
Abstract（参考訳）: 数学的な問題解決は、大きな言語とマルチモーダルモデルの推論の難しいテストであり続けているが、既存のベンチマークはサイズ、言語カバレッジ、タスクの多様性に制限がある。我々は,Olympiadレベルの数学問題の高品質,大規模,マルチモーダル,多言語データセットであるMathNetと,生成モデルにおける数学的推論と埋め込み型システムにおける数学的検索のベンチマークを紹介する。 MathNetは47の国、17の言語、そして20年の競争にまたがる。コアデータセットに加えて,人間専門家がキュレートした数学的に等価で構造的に類似した問題ペアからなる検索ベンチマークを構築した。 MathNetは3つのタスクをサポートしている。 (i)問題解決。 (二)Math-Aware Retrieval,及び三検索増補問題解決実験結果によると、最先端の推論モデルでさえ(Gemini-3.1-Proは78.4%、GPT-5は69.3%)、埋め込みモデルは同等の問題を解くのに苦労している。例えば、DeepSeek-V3.2- Specialeは最大12%のゲインを達成し、ベンチマークの最高スコアを得る。 MathNetは、数学的な問題検索を評価するための最初のベンチマークとともに、最大の高品質なOlympiadデータセットを提供し、https://mathnet.mit.edu.comでデータセットとベンチマークの両方を公開しています。

関連論文リスト

HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification [54.06301039725887]
計算および応用数学において8つの領域にまたがる100以上の未解決問題のベンチマークであるHorizonMathを紹介する。我々のベンチマークは、発見が困難であり、意味のある数学的洞察を必要とする問題のクラスをターゲットにしているが、検証は計算的に効率的で簡単なものである。
論文参考訳（メタデータ） (2026-03-16T17:59:53Z)
RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics [30.778394290919582]
大規模言語モデル(LLM)における数学的推論を評価するための既存のベンチマークは、主に競合問題、公式な証明、人工的な問題に依存している。論文や数理フォーラムから直接派生した新しいベンチマークであるRealMathを導入し,実数理タスクにおけるLLMの能力を評価する。
論文参考訳（メタデータ） (2025-05-18T23:32:46Z)
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。 OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文参考訳（メタデータ） (2025-03-27T11:20:17Z)
UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts [7.856746367263317]
本稿では,大規模言語モデルの評価を目的とした頑健な評価フレームワークであるUTMath Benchmarkを紹介する。これは9つの数学領域にまたがる1053個の最先端問題を含み、平均68個のテストケースがある。最高の性能モデルであるo1-miniはわずか32.57%の問題を解き、o1-previewは27.16%、GPT-4oは26.93%であった。
論文参考訳（メタデータ） (2024-11-11T18:59:02Z)
Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文参考訳（メタデータ） (2024-10-10T14:39:33Z)
Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。 LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文参考訳（メタデータ） (2024-04-19T08:45:42Z)
Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。 LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文参考訳（メタデータ） (2022-10-31T17:41:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。