論文の概要: Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On
- arxiv url: http://arxiv.org/abs/2407.08348v2
- Date: Wed, 17 Jul 2024 16:28:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 12:15:36.806637
- Title: Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On
- Title(参考訳): Skywork-Math: 大規模言語モデルにおける数学的推論のためのデータスケーリング法則
- Authors: Liang Zeng, Liangjun Zhong, Liang Zhao, Tianwen Wei, Liu Yang, Jujie He, Cheng Cheng, Rui Hu, Yang Liu, Shuicheng Yan, Han Fang, Yahui Zhou,
- Abstract要約: 一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
- 参考スコア(独自算出の注目度): 55.449818944278526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the underlying factors that potentially enhance the mathematical reasoning capabilities of large language models (LLMs). We argue that the data scaling law for math reasoning capabilities in modern LLMs is far from being saturated, highlighting how the model's quality improves with increases in data quantity. To support this claim, we introduce the Skywork-Math model series, supervised fine-tuned (SFT) on common 7B LLMs using our proposed 2.5M-instance Skywork-MathQA dataset. Skywork-Math 7B has achieved impressive accuracies of 51.2% on the competition-level MATH benchmark and 83.9% on the GSM8K benchmark using only SFT data, outperforming an early version of GPT-4 on MATH. The superior performance of Skywork-Math models contributes to our novel two-stage data synthesis and model SFT pipelines, which include three different augmentation methods and a diverse seed problem set, ensuring both the quantity and quality of Skywork-MathQA dataset across varying difficulty levels. Most importantly, we provide several practical takeaways to enhance math reasoning abilities in LLMs for both research and industry applications.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の数学的推論能力を高める要因について検討する。
我々は、現代のLSMにおける数学推論能力のデータスケーリング法則は、データ量の増加とともにモデルの品質がどのように改善されるかを強調し、飽和状態には程遠いと論じる。
この主張を支持するために、2.5M-instance Skywork-MathQAデータセットを用いて、一般的な7B LLM上での微調整(SFT)を行うSkywork-Mathモデルシリーズを紹介した。
Skywork-Math 7Bは、競合レベルのMATHベンチマークで51.2%、SFTデータのみを使用してGSM8Kベンチマークで83.9%、MATH上でのGPT-4の初期バージョンよりも優れた精度を達成した。
Skywork-Mathモデルの優れた性能は、新しい2段階のデータ合成およびモデルSFTパイプラインに寄与する。これは、3つの異なる拡張方法と多様なシード問題セットを含み、Skywork-MathQAデータセットの量と品質を様々な難易度で保証する。
最も重要なことは、LLMの数学推論能力を高めるために、研究用および産業用の両方にいくつかの実践的な取組を提供していることである。
関連論文リスト
- Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch [28.519536719973317]
ScaleQuestはスケーラブルで斬新なデータ合成手法である。
複雑な拡張制約を持つシードデータを必要とせずに、スクラッチから質問を生成する。
主要なオープンソースモデルの性能を普遍的に向上させることができる。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data [8.36384597713879]
OpenMathInstruct-2データセットは、14万の質問解決ペアで構成されている($600Kのユニークな質問)
texttLlama-3.1-8B-Base を OpenMath Instruct-2 で微調整すると、texttLlama3.1-8B-Instruct on MATH は 15.9% 向上する。
オープンソースへの取り組みを加速するため、我々は商用ライセンス下でコード、微調整されたモデル、OpenMath Instruct-2データセットをリリースしました。
論文 参考訳(メタデータ) (2024-10-02T14:00:09Z) - LLaMa-SciQ: An Educational Chatbot for Answering Science MCQ [0.0]
大規模言語モデル(LLM)は、数学的な推論を必要とするタスク、特に多重選択質問(MCQ)にしばしば苦労する。
我々は,STEM分野におけるMCQの解決と理解を支援するLLaMa-SciQを開発した。
数学的推論では、LLaMa-SciQはGSM8kデータセットで74.5%、MATHデータセットで30%の精度を達成した。
論文 参考訳(メタデータ) (2024-09-25T09:41:46Z) - Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement [71.46993852662021]
Qwen2.5-Math と Qwen2.5-Math-Instruct-1.5B/7B/72B である。
Qwen2.5-Math-Instructは中国語と英語の両方をサポートし、高度な数学的推論能力を持っている。
論文 参考訳(メタデータ) (2024-09-18T16:45:37Z) - InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning [13.728595670907136]
InfinityMATHは、プログラム数学的推論のためのスケーラブルな命令チューニングデータセットである。
オープンソースの言語とLlama2やCodeLlamaといったコードモデルによる微調整実験は、InfinityMATHの実用的メリットを実証している。
論文 参考訳(メタデータ) (2024-08-09T08:18:20Z) - Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。