論文の概要: Performance Comparison of Large Language Models on Advanced Calculus Problems
- arxiv url: http://arxiv.org/abs/2503.03960v1
- Date: Wed, 05 Mar 2025 23:26:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:25.270026
- Title: Performance Comparison of Large Language Models on Advanced Calculus Problems
- Title(参考訳): 高度な計算問題における大規模言語モデルの性能比較
- Authors: In Hak Moon,
- Abstract要約: この研究は、ChatGPT 4o、1.5 Proを使ったGemini Advanced、Copilot Pro、Claude 3.5 Sonnet、Meta AI、Mistral AI、Perplexityなど、モデルの正確性、信頼性、問題解決能力を評価することを目的としている。
結果は、モデルのパフォーマンスにおける重要なトレンドとパターンを強調し、その長所と短所の両方を明らかにします。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper presents an in-depth analysis of the performance of seven different Large Language Models (LLMs) in solving a diverse set of math advanced calculus problems. The study aims to evaluate these models' accuracy, reliability, and problem-solving capabilities, including ChatGPT 4o, Gemini Advanced with 1.5 Pro, Copilot Pro, Claude 3.5 Sonnet, Meta AI, Mistral AI, and Perplexity. The assessment was conducted through a series of thirty-two test problems, encompassing a total of 320 points. The problems covered various topics, from vector calculations and geometric interpretations to integral evaluations and optimization tasks. The results highlight significant trends and patterns in the models' performance, revealing both their strengths and weaknesses - for instance, models like ChatGPT 4o and Mistral AI demonstrated consistent accuracy across various problem types, indicating their robustness and reliability in mathematical problem-solving, while models such as Gemini Advanced with 1.5 Pro and Meta AI exhibited specific weaknesses, particularly in complex problems involving integrals and optimization, suggesting areas for targeted improvements. The study also underscores the importance of re-prompting in achieving accurate solutions, as seen in several instances where models initially provided incorrect answers but corrected them upon re-prompting. Overall, this research provides valuable insights into the current capabilities and limitations of LLMs in the domain of math calculus, with the detailed analysis of each model's performance on specific problems offering a comprehensive understanding of their strengths and areas for improvement, contributing to the ongoing development and refinement of LLM technology. The findings are particularly relevant for educators, researchers, and developers seeking to leverage LLMs for educational and practical applications in mathematics.
- Abstract(参考訳): 本稿では,7種類の大規模言語モデル(LLM)の性能の詳細な解析を行い,多種多様な数学高度な計算問題の解法について述べる。
この研究は、ChatGPT 4o、1.5 Proを使ったGemini Advanced、Copilot Pro、Claude 3.5 Sonnet、Meta AI、Mistral AI、Perplexityなど、これらのモデルの正確性、信頼性、問題解決能力を評価することを目的としている。
評価は、合計320点を含む32の試験問題を通じて実施された。
問題は、ベクトル計算や幾何学的解釈から積分評価や最適化タスクまで、様々なトピックをカバーした。
例えば、ChatGPT 4oやMistral AIといったモデルでは、数学的な問題解決における堅牢性と信頼性を示すさまざまな問題タイプが一貫した正確性を示し、Gemini Advanced with 1.5 ProやMeta AIといったモデルでは、特に積分と最適化に関わる複雑な問題において、特に目標とする改善の領域を示す。
この研究は、モデルが最初は誤った回答を提供したが、再プロンプトによって修正したいくつかの事例で見られるように、正確な解決策を達成する上での再プロンプトの重要性も強調している。
本研究は, 数学計算分野におけるLLMの現在の能力と限界に関する貴重な知見を提供し, それぞれのモデルの性能を, それぞれの長所と改善領域を包括的に理解し, LLM技術の継続的な開発・改良に寄与する。
この発見は、数学の教育的および実践的な応用にLLMを活用しようとしている教育者、研究者、開発者にとって特に関係がある。
関連論文リスト
- Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。
最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。
より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文 参考訳(メタデータ) (2025-02-17T09:07:32Z) - Improving Multimodal LLMs Ability In Geometry Problem Solving, Reasoning, And Multistep Scoring [34.37450586634531]
本稿では,LVLM(Large Vision Language Models)の問題解決能力を高めるため,GPSM4Kを提案する。
GPSM4Kは7~12年生の数学教科書から手作業で抽出した2157個の質問応答対を含んでいる。
このデータセットは、LVLMの幾何学的推論能力を評価するための優れたベンチマークとなる。
論文 参考訳(メタデータ) (2024-12-01T15:19:23Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - Evaluation of OpenAI o1: Opportunities and Challenges of AGI [112.0812059747033]
o1-previewは目覚ましい能力を示し、しばしば人間レベルまたは優れたパフォーマンスを実現した。
このモデルは、様々な分野にわたる複雑な推論と知識の統合を必要とするタスクに優れていた。
総合的な結果は、人工知能への大きな進歩を示している。
論文 参考訳(メタデータ) (2024-09-27T06:57:00Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning [11.63133816413199]
大言語モデル (LLM) は数学語問題 (MWP) に適用されている。
本稿では,ルールベース手法とより小さな言語モデルにより生成される正しい推論ステップと誤推論ステップをMWPに組み込んだ,新しいデータセットMWP-MISTAKEを提案する。
GPT-$oの誤り検出と修正における優れた性能と、より小さなモデルで直面する永続的な課題を強調した。
論文 参考訳(メタデータ) (2024-06-16T08:06:05Z) - GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving [40.46491587796371]
我々はGeoEvalベンチマーク、2,000問題の主要サブセット、750問題サブセット、2000問題の追加サブセット、300問題のハードサブセットを含む包括的コレクションを紹介する。
これらのサブセットにおける10個のLLMとMMの評価から、WizardMathモデルは、主サブセットでは55.67%の精度で、ハードサブセットでは6.00%の精度しか達成していないことが分かる。
論文 参考訳(メタデータ) (2024-02-15T16:59:41Z) - Examining the Potential and Pitfalls of ChatGPT in Science and
Engineering Problem-Solving [1.3628066756509705]
この研究では、OpenAIのChatGPTが様々なタイプの物理問題を解く能力について検討している。
ChatGPTは、よく特定された問題の62.5%をうまく解決することができたが、その精度は未特定問題に対して8.3%にまで低下した。
論文 参考訳(メタデータ) (2023-10-12T23:39:28Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。