論文の概要: The CompMath-MCQ Dataset: Are LLMs Ready for Higher-Level Math?
- arxiv url: http://arxiv.org/abs/2603.03334v1
- Date: Wed, 11 Feb 2026 10:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.163064
- Title: The CompMath-MCQ Dataset: Are LLMs Ready for Higher-Level Math?
- Title(参考訳): CompMath-MCQデータセット:LLMは高レベル数学に対応しているか?
- Authors: Bianca Raimondi, Francesco Pivi, Davide Evangelista, Maurizio Gabbrielli,
- Abstract要約: CompMath-MCQは、複数選択設定で数学的推論を評価するための新しいベンチマークデータセットである。
このデータセットは、卒業生レベルのコースの教授による1500の質問から成り立っている。
- 参考スコア(独自算出の注目度): 1.2891189282516038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of Large Language Models (LLMs) on mathematical reasoning has largely focused on elementary problems, competition-style questions, or formal theorem proving, leaving graduate-level and computational mathematics relatively underexplored. We introduce CompMath-MCQ, a new benchmark dataset for assessing LLMs on advanced mathematical reasoning in a multiple-choice setting. The dataset consists of 1{,}500 originally authored questions by professors of graduate-level courses, covering topics including Linear Algebra, Numerical Optimization, Vector Calculus, Probability, and Python-based scientific computing. Three option choices are provided for each question, with exactly one of them being correct. To ensure the absence of data leakage, all questions are newly created and not sourced from existing materials. The validity of questions is verified through a procedure based on cross-LLM disagreement, followed by manual expert review. By adopting a multiple-choice format, our dataset enables objective, reproducible, and bias-free evaluation through lm_eval library. Baseline results with state-of-the-art LLMs indicate that advanced computational mathematical reasoning remains a significant challenge. We release CompMath-MCQ at the following link: https://github.com/biancaraimondi/CompMath-MCQ.git
- Abstract(参考訳): 数学推論におけるLarge Language Models (LLMs) の評価は、基本的な問題、競合スタイルの質問、あるいは形式的な定理の証明に主に焦点を合わせており、大学院レベルの数学と計算数学は比較的過小評価されている。
複数選択条件下での高度な数学的推論に基づいてLLMを評価するための新しいベンチマークデータセットであるCompMath-MCQを紹介する。
データセットは1{,}500で、もともとは卒業生レベルのコースの教授が作成した質問から成り、線形代数、数値最適化、ベクトル計算、確率、Pythonベースの科学計算などのトピックをカバーしている。
質問ごとに3つの選択肢が与えられ、その中の1つが正確に正しい。
データ漏洩を確実にするために、すべての質問が新しく作成され、既存の資料から出されていない。
質問の妥当性は、クロスLLMの不一致に基づく手順で検証され、続いてマニュアル専門家によるレビューが続く。
複数選択形式を採用することで,lm_evalライブラリによる目的,再現性,バイアスのない評価が可能になる。
最先端のLCMによるベースラインの結果は、高度な計算数学的推論が依然として重要な課題であることを示している。
我々は以下のリンクでCompMath-MCQをリリースした。
関連論文リスト
- RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics [30.778394290919582]
大規模言語モデル(LLM)における数学的推論を評価するための既存のベンチマークは、主に競合問題、公式な証明、人工的な問題に依存している。
論文や数理フォーラムから直接派生した新しいベンチマークであるRealMathを導入し,実数理タスクにおけるLLMの能力を評価する。
論文 参考訳(メタデータ) (2025-05-18T23:32:46Z) - HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。
本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。
HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文 参考訳(メタデータ) (2024-10-13T20:09:41Z) - AI-Assisted Generation of Difficult Math Questions [78.7547836422727]
現在の訓練は、数学的推論をコア能力として位置づけている。
多様で挑戦的な数学の質問には、控えめな需要がある。
本稿では,LLMの強みとHuman-in-the-loopアプローチを組み合わせた設計枠組みを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:55:36Z) - MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。