論文の概要: MAmmoTH: Building Math Generalist Models through Hybrid Instruction
Tuning
- arxiv url: http://arxiv.org/abs/2309.05653v3
- Date: Tue, 3 Oct 2023 02:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 10:53:52.394114
- Title: MAmmoTH: Building Math Generalist Models through Hybrid Instruction
Tuning
- Title(参考訳): MAmmoth:ハイブリッドインストラクションチューニングによる数学一般モデルの構築
- Authors: Xiang Yue, Xingwei Qu, Ge Zhang, Yao Fu, Wenhao Huang, Huan Sun, Yu
Su, Wenhu Chen
- Abstract要約: 我々は,一般的な数学問題解決に適したオープンソースの大規模言語モデル(LLM)であるMAmmoTHを紹介する。
MAmmoTHモデルは、厳密にキュレートされた命令チューニングデータセットであるMathInstructでトレーニングされている。
- 参考スコア(独自算出の注目度): 60.208045804204076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MAmmoTH, a series of open-source large language models (LLMs)
specifically tailored for general math problem-solving. The MAmmoTH models are
trained on MathInstruct, our meticulously curated instruction tuning dataset.
MathInstruct is compiled from 13 math datasets with intermediate rationales,
six of which have rationales newly curated by us. It presents a unique hybrid
of chain-of-thought (CoT) and program-of-thought (PoT) rationales, and also
ensures extensive coverage of diverse fields in math. The hybrid of CoT and PoT
not only unleashes the potential of tool use but also allows different thought
processes for different math problems. As a result, the MAmmoTH series
substantially outperform existing open-source models on nine mathematical
reasoning datasets across all scales with an average accuracy gain between 16%
and 32%. Remarkably, our MAmmoTH-7B model reaches 33% on MATH (a
competition-level dataset), which exceeds the best open-source 7B model
(WizardMath) by 23%, and the MAmmoTH-34B model achieves 44% accuracy on MATH,
even surpassing GPT-4's CoT result. Our work underscores the importance of
diverse problem coverage and the use of hybrid rationales in developing
superior math generalist models.
- Abstract(参考訳): 我々は,一般的な数学問題解決に適したオープンソースの大規模言語モデル(LLM)であるMAmmoTHを紹介する。
MAmmoTHモデルは、厳密にキュレートされた命令チューニングデータセットであるMathInstructでトレーニングされている。
mathinstructは13の数学データセットから中間的な合理性を持つようにコンパイルされます。
cot (chain-of-thought) とpot (program-of-thought) のハイブリッドであり、数学における様々な分野をカバーする。
CoTとPoTのハイブリッドは、ツール使用の可能性を広げるだけでなく、異なる数学問題に対して異なる思考プロセスを可能にする。
その結果、MAmmoTHシリーズは、すべてのスケールにわたる9つの数学的推論データセットで既存のオープンソースモデルを大幅に上回り、平均精度は16%から32%向上した。
注目すべきは、我々のMAmmoTH-7Bモデルは、最高のオープンソース7Bモデル(WizardMath)を23%上回るMATH(競合レベルのデータセット)で33%に達し、MAmmoTH-34Bモデルは、GPT-4のCoT結果よりも44%の精度でMATH上で44%の精度を達成したことだ。
本研究は,多種多様な問題カバレッジの重要性と,優れた数学ジェネラリストモデルの開発におけるハイブリッド理性の利用を明らかにする。
関連論文リスト
- Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs [38.127313175508746]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文 参考訳(メタデータ) (2024-02-26T07:17:25Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。