論文の概要: Unveiling the Mathematical Reasoning in DeepSeek Models: A Comparative Study of Large Language Models
- arxiv url: http://arxiv.org/abs/2503.10573v1
- Date: Thu, 13 Mar 2025 17:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:51:46.193966
- Title: Unveiling the Mathematical Reasoning in DeepSeek Models: A Comparative Study of Large Language Models
- Title(参考訳): ディープシークモデルにおける数学的推論の展開:大規模言語モデルの比較研究
- Authors: Afrar Jahin, Arif Hassan Zidan, Yu Bao, Shizhe Liang, Tianming Liu, Wei Zhang,
- Abstract要約: 本研究では,五大言語モデルとともに2つのDeepSeekモデルの数学的推論性能を体系的に評価する。
DeepSeek-R1は3つのデータセットのうち2つで常に最高精度を達成し、強力な数学的推論能力を示した。
応答時間に関して、Gemini 2.0 Flashは、リアルタイムアプリケーションにとって重要な要素である他のモデルよりも高速な処理速度を示した。
- 参考スコア(独自算出の注目度): 15.062318526342244
- License:
- Abstract: With the rapid evolution of Artificial Intelligence (AI), Large Language Models (LLMs) have reshaped the frontiers of various fields, spanning healthcare, public health, engineering, science, agriculture, education, arts, humanities, and mathematical reasoning. Among these advancements, DeepSeek models have emerged as noteworthy contenders, demonstrating promising capabilities that set them apart from their peers. While previous studies have conducted comparative analyses of LLMs, few have delivered a comprehensive evaluation of mathematical reasoning across a broad spectrum of LLMs. In this work, we aim to bridge this gap by conducting an in-depth comparative study, focusing on the strengths and limitations of DeepSeek models in relation to their leading counterparts. In particular, our study systematically evaluates the mathematical reasoning performance of two DeepSeek models alongside five prominent LLMs across three independent benchmark datasets. The findings reveal several key insights: 1). DeepSeek-R1 consistently achieved the highest accuracy on two of the three datasets, demonstrating strong mathematical reasoning capabilities. 2). The distilled variant of LLMs significantly underperformed compared to its peers, highlighting potential drawbacks in using distillation techniques. 3). In terms of response time, Gemini 2.0 Flash demonstrated the fastest processing speed, outperforming other models in efficiency, which is a crucial factor for real-time applications. Beyond these quantitative assessments, we delve into how architecture, training, and optimization impact LLMs' mathematical reasoning. Moreover, our study goes beyond mere performance comparison by identifying key areas for future advancements in LLM-driven mathematical reasoning. This research enhances our understanding of LLMs' mathematical reasoning and lays the groundwork for future advancements
- Abstract(参考訳): 人工知能(AI)の急速な進化により、大規模言語モデル(LLM)は、医療、公衆衛生、工学、科学、農業、教育、芸術、人文科学、数学的推論など、様々な分野のフロンティアを再構築した。
これらの進歩の中で、DeepSeekモデルが注目に値する候補として登場し、彼らと仲間を区別する有望な能力を実証している。
前回の研究では、LLMの比較分析を行ったが、LLMの広い範囲にわたる数学的推論を包括的に評価した例は少ない。
本研究では,DeepSeekモデルの長所と短所に着目し,詳細な比較研究を行うことにより,このギャップを埋めることを目的としている。
特に,2つのDeepSeekモデルの数学的推論性能を,3つの独立したベンチマークデータセットにまたがる5つの顕著なLCMとともに体系的に評価した。
その結果、いくつかの重要な洞察が得られた。
DeepSeek-R1は3つのデータセットのうち2つで常に最高精度を達成し、強力な数学的推論能力を示した。
2)。
LLMの蒸留変種は, 蒸留技術による潜在的な欠点を浮き彫りにした。
3)。
応答時間に関して、Gemini 2.0 Flashは、リアルタイムアプリケーションにとって重要な要素である他のモデルよりも高速な処理速度を示した。
これらの定量的評価の他に、アーキテクチャ、トレーニング、最適化がLLMの数学的推論にどのように影響するかを掘り下げる。
さらに,本研究は,LLMによる数学的推論における今後の進歩の鍵となる領域を特定することで,単なる性能比較に留まらない。
本研究は, LLMの数学的推論の理解を高め, 今後の発展に向けての基礎となるものとなる。
関連論文リスト
- Game Theory Meets Large Language Models: A Systematic Survey [18.07120579043073]
大規模言語モデル(LLM)の急速な進歩は、これらの2つの分野の交差を探索する広範な研究を引き起こしている。
本稿では,これらの分野の交点を包括的に調査し,三つの視点から双方向の関係を探求する。
この調査は、新たなAI能力で理論的な厳格さをブリッジすることで、学際的なコラボレーションを促進し、この進化する研究領域の進歩を促進することを目的としている。
論文 参考訳(メタデータ) (2025-02-13T08:08:27Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges [25.82535441866882]
本調査は,マルチモーダル大言語モデル(MLLM)の時代における数学的推論の包括的解析である。
2021年以降に出版された200以上の研究を概観し,Math-LLMの最先端の展開について検討する。
特に、マルチモーダルな数学的推論パイプラインと(M)LLMと関連する方法論について検討する。
論文 参考訳(メタデータ) (2024-12-16T16:21:41Z) - What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。
本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文 参考訳(メタデータ) (2024-12-11T11:38:11Z) - Exploring Large Language Models for Multimodal Sentiment Analysis: Challenges, Benchmarks, and Future Directions [0.0]
マルチモーダル・アスペクトベース感性分析(MABSA)は、テキストや画像を含む多モーダル情報からアスペクト項とその対応する感情極性を抽出することを目的としている。
従来の教師付き学習手法はこの課題において有効性を示したが、大規模言語モデル(LLM)のMABSAへの適応性は未だ不明である。
Llama2、LLaVA、ChatGPTなどのLLMの最近の進歩は、一般的なタスクにおいて強力な能力を示しているが、MABSAのような複雑できめ細かなシナリオでは、その性能が過小評価されている。
論文 参考訳(メタデータ) (2024-11-23T02:17:10Z) - An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models [56.537253374781876]
LMM(Large Multimodal Models)は、様々なビジョンや言語タスクにおいて、強力なパフォーマンスを実現している。
しかし、それらの空間的推論能力は未解明である。
我々は,LMMの空間的理解と推論能力を包括的に研究するために,新しいVQAデータセットであるSpatial-MMを構築した。
論文 参考訳(メタデータ) (2024-11-09T03:07:33Z) - Learning on Graphs with Large Language Models(LLMs): A Deep Dive into Model Robustness [39.57155321515097]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示している。
LLMがグラフ上での学習において堅牢性を示すかどうかは不明である。
論文 参考訳(メタデータ) (2024-07-16T09:05:31Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。