論文の概要: MetaMath: Bootstrap Your Own Mathematical Questions for Large Language
Models
- arxiv url: http://arxiv.org/abs/2309.12284v3
- Date: Mon, 9 Oct 2023 16:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 03:41:41.263542
- Title: MetaMath: Bootstrap Your Own Mathematical Questions for Large Language
Models
- Title(参考訳): metamath: 大きな言語モデルのための数学的質問をブートストラップする
- Authors: Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu
Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu
- Abstract要約: 数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
- 参考スコア(独自算出の注目度): 94.71699322751327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have pushed the limits of natural language
understanding and exhibited excellent problem-solving ability. Despite the
great success, most existing open-source LLMs (e.g., LLaMA-2) are still far
away from satisfactory for solving mathematical problem due to the complex
reasoning procedures. To bridge this gap, we propose MetaMath, a fine-tuned
language model that specializes in mathematical reasoning. Specifically, we
start by bootstrapping mathematical questions by rewriting the question from
multiple perspectives without extra knowledge, which results in a new dataset
called MetaMathQA. Then we fine-tune the LLaMA-2 models on MetaMathQA.
Experimental results on two popular benchmarks (i.e., GSM8K and MATH) for
mathematical reasoning demonstrate that MetaMath outperforms a suite of
open-source LLMs by a significant margin. Our MetaMath-7B model achieves 66.4%
on GSM8K and 19.4% on MATH, exceeding the state-of-the-art models of the same
size by 11.5% and 8.7%. Particularly, MetaMath-70B achieves an accuracy of
82.3% on GSM8K, slightly better than GPT-3.5-Turbo. We release all the
MetaMathQA dataset, the MetaMath models with different model sizes and the
training code for public use.
- Abstract(参考訳): 大規模言語モデル(llm)は自然言語理解の限界を押し上げ、優れた問題解決能力を示した。
大きな成功にもかかわらず、既存のオープンソース LLM (例: LLaMA-2) は、複雑な推論手順による数学的問題の解決にはまだ満足できない。
このギャップを埋めるために,数学的推論を専門とする微調整言語モデルMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始めます。
次に、メタマスQA上でLLaMA-2モデルを微調整する。
数学的推論のための2つの人気のあるベンチマーク(GSM8KとMATH)の実験結果によると、MetaMathはオープンソースのLLMのスイートよりも大幅に優れていた。
我々のMetaMath-7Bモデルは、GSM8Kで66.4%、MATHで19.4%を達成し、同じサイズの最先端モデルの11.5%と8.7%を上回った。
特にMetaMath-70BはGSM8Kで82.3%の精度を達成しており、GPT-3.5-Turboより若干優れている。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
関連論文リスト
- MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable
Reasoning [99.8200914526817]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - Query and Response Augmentation Cannot Help Out-of-domain Math Reasoning
Generalization [56.24794149009814]
大規模言語モデル(LLM)を用いた数学推論では、クエリの進化と多様な推論経路による微調整データ拡張が実証的に有効である。
1)データ拡張の戦略はより効果的か,(2)拡張データ量とモデル性能のスケーリングの関係はどのようなものか,(3)データ拡張は、領域外の数学的推論タスクに一般化を動機付けることができるのか?
論文 参考訳(メタデータ) (2023-10-09T08:18:58Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - WizardMath: Empowering Mathematical Reasoning for Large Language Models
via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。
GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文 参考訳(メタデータ) (2023-08-18T14:23:21Z) - How well do Large Language Models perform in Arithmetic tasks? [25.638682874990206]
数学の単語問題に段階的に答えるチェーンオブ思考を含む、大きな言語モデルが出現した。
我々の知る限りでは、大規模言語モデルの算術能力を評価することに注力する作業はない。
本研究では,最新の大規模言語モデルをテストするための算術データセットMATH 401を提案する。
論文 参考訳(メタデータ) (2023-03-16T09:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。