論文の概要: Benchmarking Large Language Models for Calculus Problem-Solving: A Comparative Analysis
- arxiv url: http://arxiv.org/abs/2504.13187v1
- Date: Mon, 31 Mar 2025 00:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.58601
- Title: Benchmarking Large Language Models for Calculus Problem-Solving: A Comparative Analysis
- Title(参考訳): 計算問題解決のための大規模言語モデルのベンチマーク:比較分析
- Authors: In Hak Moon,
- Abstract要約: 5つの主要大言語モデル (LLM) を, 微分問題を解く上での性能評価を行った。
Chat GPT 4oは最高成功率94.71%、Claude Pro(85.74%)、Gemini Advanced(84.42%)、Copilot Pro(76.30%)、Meta AI(56.75%)が続いた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a comprehensive evaluation of five leading large language models (LLMs) - Chat GPT 4o, Copilot Pro, Gemini Advanced, Claude Pro, and Meta AI - on their performance in solving calculus differentiation problems. The investigation assessed these models across 13 fundamental problem types, employing a systematic cross-evaluation framework where each model solved problems generated by all models. Results revealed significant performance disparities, with Chat GPT 4o achieving the highest success rate (94.71%), followed by Claude Pro (85.74%), Gemini Advanced (84.42%), Copilot Pro (76.30%), and Meta AI (56.75%). All models excelled at procedural differentiation tasks but showed varying limitations with conceptual understanding and algebraic manipulation. Notably, problems involving increasing/decreasing intervals and optimization word problems proved most challenging across all models. The cross-evaluation matrix revealed that Claude Pro generated the most difficult problems, suggesting distinct capabilities between problem generation and problem-solving. These findings have significant implications for educational applications, highlighting both the potential and limitations of LLMs as calculus learning tools. While they demonstrate impressive procedural capabilities, their conceptual understanding remains limited compared to human mathematical reasoning, emphasizing the continued importance of human instruction for developing deeper mathematical comprehension.
- Abstract(参考訳): 本研究では,5つの主要な大規模言語モデル(LLM) – Chat GPT 4o, Copilot Pro, Gemini Advanced, Claude Pro, Meta AI – の総合的な評価を行い,微分問題を解く上でのパフォーマンスについて述べる。
調査では、これらのモデルを13の基本的な問題タイプにまたがって評価し、各モデルがすべてのモデルによって生成された問題を解決した、体系的な相互評価フレームワークを使用した。
その結果、Chat GPT 4oが最高成功率94.71%、Claude Pro (85.74%)、Gemini Advanced (84.42%)、Copilot Pro (76.30%)、Meta AI (56.75%)が続いた。
全てのモデルは手続き的微分タスクに優れていたが、概念的理解と代数的操作で様々な制限を示した。
特に、間隔の増減や単語の最適化といった問題は、すべてのモデルにおいて最も困難であることが判明した。
クロス評価行列は、Claude Proが最も難しい問題を発生し、問題生成と問題解決の間に異なる能力があることを示唆している。
これらの知見は、計算機学習ツールとしてのLLMの可能性と限界の両方を浮き彫りにして、教育応用に重大な影響を及ぼす。
彼らは印象的な手続き的能力を示しているが、その概念的理解は人間の数学的推論と比較して限定的であり、より深い数学的理解を開発するための人間の指導の重要性を強調している。
関連論文リスト
- Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead [33.011660907969706]
推論時間スケーリングは、大きな言語モデルの推論能力を高めることができる。
本研究では,9つの最先端モデルと8つの課題にまたがるスケーリング手法の利点と限界について検討する。
論文 参考訳(メタデータ) (2025-03-31T23:40:28Z) - Performance Comparison of Large Language Models on Advanced Calculus Problems [0.0]
この研究は、ChatGPT 4o、1.5 Proを使ったGemini Advanced、Copilot Pro、Claude 3.5 Sonnet、Meta AI、Mistral AI、Perplexityなど、モデルの正確性、信頼性、問題解決能力を評価することを目的としている。
結果は、モデルのパフォーマンスにおける重要なトレンドとパターンを強調し、その長所と短所の両方を明らかにします。
論文 参考訳(メタデータ) (2025-03-05T23:26:12Z) - Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。
最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。
より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文 参考訳(メタデータ) (2025-02-17T09:07:32Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。
ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文 参考訳(メタデータ) (2024-12-09T15:11:40Z) - LLM4DS: Evaluating Large Language Models for Data Science Code Generation [0.0]
本稿では、Microsoft Copilot(GPT-4 Turbo)、ChatGPT(o1-preview)、Claude(3.5 Sonnet)、Perplexity Labs(Llama-3.1-70b-instruct)の4つの主要なAIアシスタントの性能を実証的に評価する。
すべてのモデルが50%の成功率を超え、ランダムなチャンスを超えた能力が確認された。
ChatGPTは様々な難易度で一貫した性能を示し、クロードの成功率はタスクの複雑さによって変動した。
論文 参考訳(メタデータ) (2024-11-16T18:43:26Z) - Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。
提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。
我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文 参考訳(メタデータ) (2024-10-07T06:37:25Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification [41.53026834367054]
本稿では,マルチモーダル数学推論のための新しいベンチマークMM-MATHを提案する。
MM-MATHは、5,929個のオープンエンド中等教育数学問題と視覚的文脈を持ち、難易度、学級レベル、知識点の詳細な分類を行う。
最高の性能モデルはMM-MATHで31%の精度しか達成していないが、人間では82%である。
論文 参考訳(メタデータ) (2024-04-07T22:16:50Z) - Examining the Potential and Pitfalls of ChatGPT in Science and
Engineering Problem-Solving [1.3628066756509705]
この研究では、OpenAIのChatGPTが様々なタイプの物理問題を解く能力について検討している。
ChatGPTは、よく特定された問題の62.5%をうまく解決することができたが、その精度は未特定問題に対して8.3%にまで低下した。
論文 参考訳(メタデータ) (2023-10-12T23:39:28Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z) - Let's Verify Step by Step [73.58107073356732]
プロセスの監督は,課題を解決するためのトレーニングモデルにおいて,結果の監督を著しく上回っていることを示す。
我々のモデルは、MATHテストセットの代表部分集合から78%の問題を解く。
また、最高の報酬モデルをトレーニングするために使われる80,000段階の人間フィードバックラベルの完全なデータセットであるPRM800Kをリリースしています。
論文 参考訳(メタデータ) (2023-05-31T17:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。