論文の概要: Evaluation of LLMs for mathematical problem solving
- arxiv url: http://arxiv.org/abs/2506.00309v2
- Date: Thu, 12 Jun 2025 02:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.291233
- Title: Evaluation of LLMs for mathematical problem solving
- Title(参考訳): 数学的問題解決のためのLCMの評価
- Authors: Ruonan Wang, Runxi Wang, Yunwen Shen, Chengfeng Wu, Qinglin Zhou, Rohitash Chandra,
- Abstract要約: 大規模言語モデル(LLM)は、様々な教育課題において優れた性能を示してきたが、数学的な問題を解く可能性についてはまだ検討されていない。
我々は,GPT-4o,DeepSeek-V3,Gemini-2.0の3つの数学データセットを比較した。
- 参考スコア(独自算出の注目度): 1.6811789875704863
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have shown impressive performance on a range of educational tasks, but are still understudied for their potential to solve mathematical problems. In this study, we compare three prominent LLMs, including GPT-4o, DeepSeek-V3, and Gemini-2.0, on three mathematics datasets of varying complexities (GSM8K, MATH500, and UNSW datasets). We take a five-dimensional approach based on the Structured Chain-of-Thought (SCoT) framework to assess final answer correctness, step completeness, step validity, intermediate calculation accuracy, and problem comprehension. The results show that GPT-4o is the most stable and consistent in performance across all the datasets, but particularly it performs outstandingly in high-level questions of the UNSW dataset. DeepSeek-V3 is competitively strong in well-structured domains such as optimisation, but suffers from fluctuations in accuracy in statistical inference tasks. Gemini-2.0 shows strong linguistic understanding and clarity in well-structured problems but performs poorly in multi-step reasoning and symbolic logic. Our error analysis reveals particular deficits in each model: GPT-4o is at times lacking in sufficient explanation or precision; DeepSeek-V3 leaves out intermediate steps; and Gemini-2.0 is less flexible in mathematical reasoning in higher dimensions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な教育課題において優れた性能を示してきたが、数学的な問題を解く可能性についてはまだ検討されていない。
本研究では,GPT-4o,DeepSeek-V3,Gemini-2.0の3つの数学データセット(GSM8K,MATH500,UNSW)を比較した。
本研究では, 最終回答の正しさ, ステップ完全性, ステップ妥当性, 中間計算精度, 問題理解を評価するために, SCoT (Structured Chain-of-Thought) フレームワークに基づく5次元手法を提案する。
その結果、GPT-4oは全てのデータセットで最も安定しており、一貫性があるが、特にUNSWデータセットの高レベルな質問では顕著に機能することがわかった。
DeepSeek-V3は最適化のようなよく構造化された領域では競合的に強いが、統計的推論タスクの精度の変動に悩まされている。
Gemini-2.0は、よく構造化された問題において強い言語的理解と明快さを示すが、多段階の推論や記号論理では不十分である。
GPT-4oは十分な説明や精度に欠ける場合があり、DeepSeek-V3は中間ステップを外し、Gemini-2.0は高次元の数学的推論において柔軟性が低い場合があります。
関連論文リスト
- Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
論文 参考訳(メタデータ) (2025-04-16T03:39:38Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - Performance Comparison of Large Language Models on Advanced Calculus Problems [0.0]
この研究は、ChatGPT 4o、1.5 Proを使ったGemini Advanced、Copilot Pro、Claude 3.5 Sonnet、Meta AI、Mistral AI、Perplexityなど、モデルの正確性、信頼性、問題解決能力を評価することを目的としている。
結果は、モデルのパフォーマンスにおける重要なトレンドとパターンを強調し、その長所と短所の両方を明らかにします。
論文 参考訳(メタデータ) (2025-03-05T23:26:12Z) - UGMathBench: A Diverse and Dynamic Benchmark for Undergraduate-Level Mathematical Reasoning with Large Language Models [11.964085209696051]
UGMathBenchは16の被験者5,062の課題と111のトピックで構成され、10の異なる回答タイプが特徴である。
それぞれの問題には3つのランダム化バージョンが含まれており、主要なオープンソース LLM が UGMathBench で飽和するにつれて、リリースに向けて追加バージョンが計画されている。
LLMを23個評価した結果, OpenAI-o1-mini による EAcc のロバスト性は 56.3% であり,それぞれ異なるモデルで大きな$Delta$値が観測された。
論文 参考訳(メタデータ) (2025-01-23T15:46:43Z) - Advancing Mathematical Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages [13.377908992869814]
問題解決データは、一般的な数学的コーパスと比較してモデルの数学的能力を大幅に向上させる。
本研究では, 効果的なデータ合成手法を同定し, チュータシップ増幅合成法が最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-01-23T12:14:57Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies [47.129504708849446]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。
LLMは体系的な一般化を欠き、学習された統計正則をトレーニング分布の外へ外挿することができる。
本稿では,最も先進的なLCMの1つであるGPT-4の系統的なベンチマークを行う。
論文 参考訳(メタデータ) (2024-02-27T10:44:52Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。