論文の概要: MetaMath: Bootstrap Your Own Mathematical Questions for Large Language
Models
- arxiv url: http://arxiv.org/abs/2309.12284v1
- Date: Thu, 21 Sep 2023 17:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 13:58:31.558121
- Title: MetaMath: Bootstrap Your Own Mathematical Questions for Large Language
Models
- Title(参考訳): metamath: 大きな言語モデルのための数学的質問をブートストラップする
- Authors: Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu
Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu
- Abstract要約: 数学的推論を専門とする細調整言語モデルであるemphMetaMathを提案する。
数学的推論のための2つの人気のあるベンチマーク実験の結果、MetaMathはオープンソースのLLMのスイートよりも優れていることが示された。
私たちはMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
- 参考スコア(独自算出の注目度): 94.71699322751327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have pushed the limits of natural language
understanding and exhibited excellent problem-solving ability. Despite the
great success, most existing open-source LLMs (\eg, LLaMA-2) are still far away
from satisfactory for solving mathematical problem due to the complex reasoning
procedures. To bridge this gap, we propose \emph{MetaMath}, a fine-tuned
language model that specializes in mathematical reasoning. Specifically, we
start by bootstrapping mathematical questions by rewriting the question from
multiple perspectives without extra knowledge, which results in a new dataset
called {MetaMathQA}. Then we fine-tune the LLaMA-2 models on MetaMathQA.
Experimental results on two popular benchmarks (\ie, GSM8K and MATH) for
mathematical reasoning demonstrate that MetaMath outperforms a suite of
open-source LLMs by a significant margin. Our MetaMath-7B model achieves
$66.4\%$ on GSM8K and $19.4\%$ on MATH, exceeding the state-of-the-art models
of the same size by $11.5\%$ and $8.7\%$. Particularly, {MetaMath-70B} achieves
an accuracy of $82.3\%$ on {GSM8K}, slightly better than {GPT-3.5-Turbo}. We
release the {MetaMathQA} dataset, the {MetaMath} models with different model
sizes and the training code for public use.
- Abstract(参考訳): 大規模言語モデル(llm)は自然言語理解の限界を押し上げ、優れた問題解決能力を示した。
大きな成功にもかかわらず、既存のオープンソース LLM (\eg, LLaMA-2) は、複雑な推論手順による数学的問題の解決にはまだ満足できない。
このギャップを埋めるために,数学的推論を専門とする微調整言語モデルである \emph{MetaMath} を提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的な質問をブートストラップすることから始めます。
次に、メタマスQA上でLLaMA-2モデルを微調整する。
数学的推論のための2つの人気のあるベンチマーク (\ie, GSM8K, MATH) の実験結果から、MetaMath はオープンソース LLM のスイートをかなり上回っていることが示された。
われわれのmetamath-7bモデルはgsm8kで6.4\%、数学で19.4\%、同じサイズの最先端モデルで11.5\%$と8.7\%$を上回った。
特に {metamath-70b} は {gpt-3.5-turbo} よりも若干優れている {gsm8k} で 82.3\%$ の精度を達成する。
私たちは,<metamathqa}データセット,モデルサイズが異なる{metamath}モデル,公開用のトレーニングコードをリリースしています。
関連論文リスト
- PersonaMath: Enhancing Math Reasoning through Persona-Driven Data Augmentation [24.13606388901431]
我々は、PersonaMathモデルをトレーニングする、MATHとGSM8Kから派生したデータセットであるPersonaMathQAを紹介する。
私たちのデータセットには、MetaMathQAの17.8%とMathInstructの27%の70.3Kのデータポイントしか含まれていません。
我々は、PersonaMathQAデータセット、PersonaMathモデル、およびパブリック利用のためのコードをオープンソース化した。
論文 参考訳(メタデータ) (2024-10-02T12:57:12Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning [24.68321102981711]
本稿では,数理推論にコードアシストと自己補正を併用した思考の分解を利用した大規模言語モデル(LLM)について紹介する。
DotaMathモデルは複雑な数学的タスクに対処し、それらをより単純な論理的なサブタスクに分解し、コードを利用してこれらのサブタスクを解決する。
そこで我々は,DotaMathQAの模倣学習を用いて,オープンソースのLLMと比較して優れた性能を示すDotaMathモデルを訓練した。
論文 参考訳(メタデータ) (2024-07-04T17:39:16Z) - MuMath-Code: Combining Tool-Use Large Language Models with Multi-perspective Data Augmentation for Mathematical Reasoning [11.426127461122908]
この研究には、マルチパースペクティブなデータ拡張手法による新しい数学の質問が含まれ、その上でコードネストされたソリューションを合成する。
外部Pythonインタプリタと統合したオープン大言語モデル(LLM)は、数学的推論能力を大幅に強化した。
ステージ1では、純粋なCoTデータに基づいてLlama-2を微調整し、中間モデルを取得し、ステージ2のコードネストデータに基づいてトレーニングし、結果のMuMath-Codeを得る。
論文 参考訳(メタデータ) (2024-05-13T08:32:19Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct [130.37945867605302]
本稿では,大規模言語モデル(LLM)の数学的CoT推論能力を向上させるWizardMathを提案する。
注目すべきは、WizardMath-Mistral 7BがトップクラスのオープンソースLLMをはるかに上回り、データ効率が向上したことだ。
予備的な調査では、卓越した数学性能を達成する上で、命令の進化とプロセスの監督が重要な役割を担っていることを強調した。
論文 参考訳(メタデータ) (2023-08-18T14:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。