論文の概要: Evaluating the Reasoning Abilities of LLMs on Underrepresented Mathematics Competition Problems
- arxiv url: http://arxiv.org/abs/2512.24505v1
- Date: Tue, 30 Dec 2025 23:05:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.508222
- Title: Evaluating the Reasoning Abilities of LLMs on Underrepresented Mathematics Competition Problems
- Title(参考訳): 算数競合問題におけるLLMの推論能力の評価
- Authors: Samuel Golladay, Majid Bani-Yaghoub,
- Abstract要約: 本研究の目的は,表現不足の数学競争問題における大規模言語モデルの性能分析である。
我々は,ミズーリ大学数学コンペティション問題で,GPT-4o-mini,Gemini-2.0-Flash,DeepSeek-V3の3つの主要なLLMを推し進めた。
DeepSeek-V3は、解析、解析幾何学、離散数学の3つのカテゴリで、推論と正解の両方において、最高のパフォーマンスを持っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the limitations of Large Language Models, or LLMs, in mathematical reasoning has been the focus of several recent studies. However, the majority of these studies use the same datasets for benchmarking, which limits the generalizability of their findings and may not fully capture the diverse challenges present in mathematical tasks. The purpose of the present study is to analyze the performance of LLMs on underrepresented mathematics competition problems. We prompted three leading LLMs, namely GPT-4o-mini, Gemini-2.0-Flash, and DeepSeek-V3, with the Missouri Collegiate Mathematics Competition problems in the areas of Calculus, Analytic Geometry, and Discrete Mathematics. The LLMs responses were then compared to the known correct solutions in order to determine the accuracy of the LLM for each problem domain. We also analyzed the LLMs reasoning to explore patterns in errors across problem types and models. DeepSeek-V3 has the best performance in all three categories of Calculus, Analytic Geometry, and Discrete Mathematics, both in reasoning and correct final answers. All three LLMs exhibited notably weak performance in Geometry. The majority of errors made by DeepSeek-V3 were attributed to computational and logical mistakes, whereas GPT-4o-mini frequently exhibited logical and approach-related errors. Gemini, on the other hand, tended to struggle with incomplete reasoning and drawing rushed conclusions. In conclusion, evaluating LLMs on underrepresented mathematics competition datasets can provide deeper insights into their distinct error patterns and highlight ongoing challenges in structured reasoning, particularly within the domain of Geometry.
- Abstract(参考訳): 数学的推論におけるLLM(Large Language Models)の限界を理解することは、近年のいくつかの研究の焦点となっている。
しかし、これらの研究の大半はベンチマークに同じデータセットを使用しており、これはそれらの発見の一般化性を制限し、数学的なタスクに現れる様々な課題を完全に把握できない可能性がある。
本研究の目的は,表現不足な数学競争問題におけるLLMの性能を解析することである。
我々はGPT-4o-mini、Gemini-2.0-Flash、DeepSeek-V3の3つの主要なLCMを、計算学、解析幾何学、離散数学の分野でミズーリ大学数学コンペティションの問題を提起した。
LLMの応答は、各問題領域のLSMの精度を決定するために、既知の正しい解と比較された。
また,問題型やモデルにまたがる誤りのパターンを探るため,LLMの推論を分析した。
DeepSeek-V3は、解析、解析幾何学、離散数学の3つのカテゴリで、推論と正解の両方において、最高のパフォーマンスを持っている。
3基のLSMは、ジオメトリーで顕著に弱い性能を示した。
DeepSeek-V3のエラーの大部分は計算的および論理的誤りによるもので、GPT-4o-miniは論理的およびアプローチ的誤りを頻繁に示していた。
一方、ジェミニは不完全な推論に苦しむ傾向にあり、急激な結論を導いた。
結論として、LLMを表現されていない数学の競合データセットで評価することは、それらの異なるエラーパターンに関する深い洞察を与え、特に幾何学の領域における構造化推論における継続的な課題を強調することができる。
関連論文リスト
- Mathematical Computation and Reasoning Errors by Large Language Models [3.0309252269809264]
大規模言語モデル(LLM)は、AIによる教育指導と評価にますます活用されている。
本研究は,算術,代数学,数論を含む3分野の数学課題を解く4つの LLM の精度を評価することに焦点を当てる。
推理強化された OpenAI o1 モデルが3つの数学タスクのカテゴリで常に高い精度またはほぼ完璧な精度を達成したことが観察された。
論文 参考訳(メタデータ) (2025-08-13T16:33:02Z) - Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics [2.489157527463306]
大規模言語モデル(LLM)は、数学的推論タスクにおいて顕著な進歩を示している。
大規模言語モデル(LLM)の最近の進歩は、数学的推論タスクの顕著な進歩を示している。
論文 参考訳(メタデータ) (2025-04-01T00:10:10Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。
本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。
HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文 参考訳(メタデータ) (2024-10-13T20:09:41Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。