論文の概要: Evaluating Mathematical Reasoning Across Large Language Models: A Fine-Grained Approach
- arxiv url: http://arxiv.org/abs/2503.10573v2
- Date: Mon, 19 May 2025 17:36:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 17:08:52.350888
- Title: Evaluating Mathematical Reasoning Across Large Language Models: A Fine-Grained Approach
- Title(参考訳): 大規模言語モデルにおける数学的推論の評価:細粒度アプローチ
- Authors: Afrar Jahin, Arif Hassan Zidan, Wei Zhang, Yu Bao, Tianming Liu,
- Abstract要約: 8大言語モデル(LLM)における数学的推論能力の体系的評価について述べる。
DeepSeek-R1は、ほとんどのドメインでo1と競合し、MMLU Formal Logicベンチマークで最高精度を達成する。
アーキテクチャの選択、トレーニングパラダイム、最適化戦略が、推論性能の変動にどのように貢献するかを考察する。
- 参考スコア(独自算出の注目度): 15.960271016276447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of Artificial Intelligence (AI), Large Language Models (LLMs) have significantly impacted a wide array of domains, including healthcare, engineering, science, education, and mathematical reasoning. Among these, mathematical reasoning remains a particularly challenging capability, often requiring multi-step logic and abstract generalization. While prior work has explored LLM performance on reasoning tasks, comprehensive evaluations that span both depth and breadth across model families remain limited. In this study, we present a systematic evaluation of mathematical reasoning abilities across eight leading LLMs, including two recent DeepSeek models, using three independent benchmark datasets. Our analyses reveal several key findings: (1) DeepSeek-R1 performs competitively with o1 across most domains and achieves the highest accuracy on the MMLU Formal Logic benchmark; (2) distilled variants, such as DeepSeek-1.5B, exhibit substantial performance degradation; and (3) Gemini 2.0 Flash achieves the lowest response latency. Beyond quantitative metrics, we explore how architectural choices, training paradigms, and optimization strategies contribute to variation in reasoning performance. These findings provide new insights into the capabilities and limitations of current LLMs in mathematical domains, and offer guidance for the development of future models better aligned with rigorous reasoning demands.
- Abstract(参考訳): 人工知能(AI)の急速な進歩により、大規模言語モデル(LLM)は、医療、工学、科学、教育、数学的推論など、幅広い分野に多大な影響を与えている。
これらのうち、数学的推論は特に困難な能力であり、しばしば多段階論理と抽象的な一般化を必要とする。
従来の研究では、推論タスクにおけるLLMの性能について検討されてきたが、モデルファミリの深さと幅にまたがる包括的評価は限定的のままである。
本研究では,近年のDeepSeekモデルを含む8つの主要なLCMにおいて,3つの独立したベンチマークデータセットを用いて数学的推論能力の体系的評価を行う。
我々は,(1)DeepSeek-R1がほとんどのドメインでo1と競合し,MMLU Formal Logicベンチマークで最高精度を達成し,(2)DeepSeek-1.5Bなどの蒸留変種が性能劣化を示し,(3)Gemini 2.0 Flashは応答遅延が低い。
定量的メトリクス以外にも、アーキテクチャの選択、トレーニングパラダイム、最適化戦略が、推論のパフォーマンスの変動にどのように貢献するかを検討します。
これらの知見は、数学領域における現在のLLMの能力と限界に関する新たな洞察を与え、厳密な推論要求に適合した将来のモデル開発のためのガイダンスを提供する。
関連論文リスト
- Have Large Language Models Learned to Reason? A Characterization via 3-SAT Phase Transition [11.422434149376478]
大規模言語モデル(LLM)は高度な推論能力を持つAIモデルとして評価されている。
理論上は、Chain-of-Thought (CoT) を用いた自己回帰 LLM は複雑な推論タスクを解くためによりシリアルな計算を行うことができる。
近年の研究では、LSMは、この能力にもかかわらず、理性を学ぶのではなく、統計的特徴に適合することが示唆されている。
論文 参考訳(メタデータ) (2025-04-04T20:57:36Z) - When Continue Learning Meets Multimodal Large Language Model: A Survey [7.250878248686215]
特定のタスクに対する微調整MLLMは、しばしばモデルの事前知識領域のパフォーマンス低下を引き起こす。
本報告では,本領域における440件の研究論文の概要と分析について述べる。
論文 参考訳(メタデータ) (2025-02-27T03:39:10Z) - Game Theory Meets Large Language Models: A Systematic Survey [18.07120579043073]
大規模言語モデル(LLM)の急速な進歩は、これらの2つの分野の交差を探索する広範な研究を引き起こしている。
本稿では,これらの分野の交点を包括的に調査し,三つの視点から双方向の関係を探求する。
この調査は、新たなAI能力で理論的な厳格さをブリッジすることで、学際的なコラボレーションを促進し、この進化する研究領域の進歩を促進することを目的としている。
論文 参考訳(メタデータ) (2025-02-13T08:08:27Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。
本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文 参考訳(メタデータ) (2024-12-11T11:38:11Z) - Exploring Large Language Models for Multimodal Sentiment Analysis: Challenges, Benchmarks, and Future Directions [0.0]
マルチモーダル・アスペクトベース感性分析(MABSA)は、テキストや画像を含む多モーダル情報からアスペクト項とその対応する感情極性を抽出することを目的としている。
従来の教師付き学習手法はこの課題において有効性を示したが、大規模言語モデル(LLM)のMABSAへの適応性は未だ不明である。
Llama2、LLaVA、ChatGPTなどのLLMの最近の進歩は、一般的なタスクにおいて強力な能力を示しているが、MABSAのような複雑できめ細かなシナリオでは、その性能が過小評価されている。
論文 参考訳(メタデータ) (2024-11-23T02:17:10Z) - An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models [56.537253374781876]
LMM(Large Multimodal Models)は、様々なビジョンや言語タスクにおいて、強力なパフォーマンスを実現している。
しかし、それらの空間的推論能力は未解明である。
我々は,LMMの空間的理解と推論能力を包括的に研究するために,新しいVQAデータセットであるSpatial-MMを構築した。
論文 参考訳(メタデータ) (2024-11-09T03:07:33Z) - Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology [13.964263002704582]
提案手法は,Chains of Thoughtプロンプトを用いても,修正されたCRT問題を解く際の誤り率が高いことを示す。
具体的には、従来の質問と比べて平均精度が最大50%低下した。
この発見は、LLMが人間に匹敵する真の数学的推論能力を持っているという信念に挑戦する。
論文 参考訳(メタデータ) (2024-10-19T05:01:56Z) - Learning on Graphs with Large Language Models(LLMs): A Deep Dive into Model Robustness [39.57155321515097]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示している。
LLMがグラフ上での学習において堅牢性を示すかどうかは不明である。
論文 参考訳(メタデータ) (2024-07-16T09:05:31Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。