論文の概要: OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data
- arxiv url: http://arxiv.org/abs/2410.01560v1
- Date: Sat, 5 Oct 2024 03:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 17:04:38.417987
- Title: OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data
- Title(参考訳): OpenMath Instruct-2: 大量のオープンソースインストラクションデータを用いた数学用AIの高速化
- Authors: Shubham Toshniwal, Wei Du, Ivan Moshkov, Branislav Kisacanin, Alexan Ayrapetyan, Igor Gitman,
- Abstract要約: OpenMathInstruct-2データセットは、14万の質問解決ペアで構成されている($600Kのユニークな質問)
texttLlama-3.1-8B-Base を OpenMath Instruct-2 で微調整すると、texttLlama3.1-8B-Instruct on MATH は 15.9% 向上する。
オープンソースへの取り組みを加速するため、我々は商用ライセンス下でコード、微調整されたモデル、OpenMath Instruct-2データセットをリリースしました。
- 参考スコア(独自算出の注目度): 8.36384597713879
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Mathematical reasoning continues to be a critical challenge in large language model (LLM) development with significant interest. However, most of the cutting-edge progress in mathematical reasoning with LLMs has become \emph{closed-source} due to lack of access to training data. This lack of data access limits researchers from understanding the impact of different choices for synthesizing and utilizing the data. With the goal of creating a high-quality finetuning (SFT) dataset for math reasoning, we conduct careful ablation experiments on data synthesis using the recently released \texttt{Llama3.1} family of models. Our experiments show that: (a) solution format matters, with excessively verbose solutions proving detrimental to SFT performance, (b) data generated by a strong teacher outperforms \emph{on-policy} data generated by a weak student model, (c) SFT is robust to low-quality solutions, allowing for imprecise data filtering, and (d) question diversity is crucial for achieving data scaling gains. Based on these insights, we create the OpenMathInstruct-2 dataset, which consists of 14M question-solution pairs ($\approx$ 600K unique questions), making it nearly eight times larger than the previous largest open-source math reasoning dataset. Finetuning the \texttt{Llama-3.1-8B-Base} using OpenMathInstruct-2 outperforms \texttt{Llama3.1-8B-Instruct} on MATH by an absolute 15.9\% (51.9\% $\rightarrow$ 67.8\%). Finally, to accelerate the open-source efforts, we release the code, the finetuned models, and the OpenMathInstruct-2 dataset under a commercially permissive license.
- Abstract(参考訳): 数学的推論は、大きな言語モデル(LLM)開発において重要な課題であり続けている。
しかし、LLMを用いた数学的推論の最先端の進歩のほとんどは、トレーニングデータへのアクセスが不足しているため、emph{closed-source} となった。
このデータアクセスの欠如により、研究者はデータの合成と利用の異なる選択の影響を理解することができなくなる。
数学推論のための高品質な微調整(SFT)データセットを作成することを目的として、最近リリースされたモデルである「texttt{Llama3.1}」を用いて、データ合成に関する慎重なアブレーション実験を行う。
私たちの実験は、こう示しています。
(a)解形式が重要で、過度に冗長な解がSFT性能に有害であることを示す。
b) 強い教師が生成したデータは、弱い学生モデルで生成されたemph{on-policy}データを上回ります。
(c) SFTは低品質なソリューションに対して堅牢であり、不正確なデータフィルタリングを可能にする。
(d)質問の多様性は、データのスケーリングゲインを達成するために不可欠である。
これらの知見に基づいて、1400万の質問解決ペア($600K)からなるOpenMathInstruct-2データセットを作成します。
OpenMath Instruct-2 による \texttt{Llama-3.1-8B-Base} の微調整は、MATH 上の \textt{Llama3.1-8B-Instruct} を 15.9\% (51.9\% $\rightarrow$ 67.8\%) で上回る。
最後に、オープンソースの取り組みを加速するために、コード、微調整されたモデル、OpenMath Instruct-2データセットを商業的に許容されるライセンスでリリースします。
関連論文リスト
- Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch [28.519536719973317]
ScaleQuestはスケーラブルで斬新なデータ合成手法である。
複雑な拡張制約を持つシードデータを必要とせずに、スクラッチから質問を生成する。
主要なオープンソースモデルの性能を普遍的に向上させることができる。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning [13.728595670907136]
InfinityMATHは、プログラム数学的推論のためのスケーラブルな命令チューニングデータセットである。
オープンソースの言語とLlama2やCodeLlamaといったコードモデルによる微調整実験は、InfinityMATHの実用的メリットを実証している。
論文 参考訳(メタデータ) (2024-08-09T08:18:20Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving [15.815363023014248]
本稿では,難解なクエリを合成フェーズに割り当てるDART(Difficulty-Aware Rejection Tuning)を提案する。
DARTは、合成フェーズ中に難しいクエリをより多くのトライアルに割り当て、難しいサンプルのより広範なトレーニングを可能にする。
データセットのさまざまなベースモデルを7Bから70Bまで微調整し、DART-MATHと呼ばれる一連の強力なモデルを作成しました。
論文 参考訳(メタデータ) (2024-06-18T07:14:02Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.45794710162241]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。
そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。
我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文 参考訳(メタデータ) (2024-05-23T09:43:19Z) - Exploring the Mystery of Influential Data for Mathematical Reasoning [127.61978092016228]
数学的推論のためのQaDS(Quality-Aware Diverse Selection)戦略を提案する。
他の選択戦略との比較は、QaDSの優位性を検証する。
OpenMathMixでは、7Bベースモデルを用いたMATHで最先端の48.8%の精度を実現している。
論文 参考訳(メタデータ) (2024-04-01T12:01:06Z) - OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset [8.080585423915075]
1.8M 問題解対を持つ数学指導用チューニングデータセット OpenMathInstruct-1 を構築した。
このデータセットは、2つの人気のある数学推論ベンチマークであるGSM8KとMATHのコード解釈ソリューションを合成することによって構築される。
我々の最良のモデルであるOpenMath-CodeLlama-70Bは、OpenMath Instruct-1のサブセットでトレーニングされ、GSM8Kで84.6%、MATHで50.7%のスコアを得た。
論文 参考訳(メタデータ) (2024-02-15T18:26:11Z) - MuggleMath: Assessing the Impact of Query and Response Augmentation on Math Reasoning [54.2093509928664]
大規模言語モデルを用いた数学推論では、クエリの進化と多様な推論経路による微調整データ拡張が実験的に有効である。
本研究では,数理推論におけるそのようなデータ拡張に関する調査を行い,これらの疑問に答えることを意図している。
コードと拡張データはhttps://github.com/OFA-Sys/8k-Scel.comで公開しています。
論文 参考訳(メタデータ) (2023-10-09T08:18:58Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。