Fugu-MT 論文翻訳(概要): JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models

論文の概要: JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models

arxiv url: http://arxiv.org/abs/2405.14365v1
Date: Thu, 23 May 2024 09:43:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-24 17:54:55.995810
Title: JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models
Title（参考訳）: JiuZhang3.0: 小型データ合成モデルのトレーニングによる数学的推論の効率化
Authors: Kun Zhou, Beichen Zhang, Jiapeng Wang, Zhipeng Chen, Wayne Xin Zhao, Jing Sha, Zhichao Sheng, Shijin Wang, Ji-Rong Wen,
Abstract要約: 既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
参考スコア（独自算出の注目度）: 110.45794710162241
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mathematical reasoning is an important capability of large language models~(LLMs) for real-world applications. To enhance this capability, existing work either collects large-scale math-related texts for pre-training, or relies on stronger LLMs (\eg GPT-4) to synthesize massive math problems. Both types of work generally lead to large costs in training or synthesis. To reduce the cost, based on open-source available texts, we propose an efficient way that trains a small LLM for math problem synthesis, to efficiently generate sufficient high-quality pre-training data. To achieve it, we create a dataset using GPT-4 to distill its data synthesis capability into the small LLM. Concretely, we craft a set of prompts based on human education stages to guide GPT-4, to synthesize problems covering diverse math knowledge and difficulty levels. Besides, we adopt the gradient-based influence estimation method to select the most valuable math-related texts. The both are fed into GPT-4 for creating the knowledge distillation dataset to train the small LLM. We leverage it to synthesize 6 million math problems for pre-training our JiuZhang3.0 model, which only needs to invoke GPT-4 API 9.3k times and pre-train on 4.6B data. Experimental results have shown that JiuZhang3.0 achieves state-of-the-art performance on several mathematical reasoning datasets, under both natural language reasoning and tool manipulation settings. Our code and data will be publicly released in \url{https://github.com/RUCAIBox/JiuZhang3.0}.
Abstract（参考訳）: 数学的推論は、現実世界のアプリケーションにおいて、大きな言語モデル~(LLM)の重要な能力である。この能力を高めるために、既存の研究は、事前学習のための大規模な数学関連のテキストを収集するか、より強力なLSM(\eg GPT-4)を使って大量の数学問題を合成する。どちらのタイプの作業も一般的に、トレーニングや合成のコストが大きくなります。オープンソーステキストをベースとしたコスト削減のために,数学問題合成のために小さなLLMを訓練し,十分な高品質な事前学習データを効率的に生成する効率的な方法を提案する。これを実現するために、GPT-4を用いてデータセットを作成し、そのデータ合成能力を小さなLLMに蒸留する。具体的には、人間の教育段階に基づく一連のプロンプトを作成し、GPT-4を誘導し、多様な数学知識と難易度を含む問題を合成する。さらに、最も価値のある数学関連のテキストを選択するために、勾配に基づく影響推定手法を採用する。両者は、小さなLLMを訓練するための知識蒸留データセットを作成するために、GPT-4に供給される。我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。実験結果から、JuZhang3.0は、自然言語推論とツール操作設定の両方の下で、いくつかの数学的推論データセット上で最先端のパフォーマンスを達成することが示された。私たちのコードとデータは、 \url{https://github.com/RUCAIBox/JiuZhang3.0} で公開されます。

関連論文リスト

FLAMES: Improving LLM Math Reasoning via a Fine-Grained Analysis of the Data Synthesis Pipeline [71.19227942708741]
本稿では,パラメータ rEasoning データ合成のLCMアセスメントフレームワークであるFLAMESを紹介する。我々のFLAMES実験は、合成データの難易度と多様性の最適バランスに関する貴重な洞察を提供する。我々は、新しいデータ合成戦略と既存のデータ合成戦略を効果的に組み合わせたFLAMESデータセットを開発した。
論文参考訳（メタデータ） (2025-08-22T16:37:40Z)
SAND-Math: Using LLMs to Generate Novel, Difficult and Useful Mathematics Questions and Answers [10.558690357768336]
textbfSAND-Math (Synthetic Augmented Novel and Difficult Mathematics problem and Solution)を紹介する。まず、スクラッチから高品質な問題を発生させ、次に新しい textbfDifficulty Hiking ステップを通じて、その複雑性を体系的に高めます。平均問題の難易度を5.02から5.98に引き上げることで、AIME25のパフォーマンスを46.38%から49.23%に引き上げる。
論文参考訳（メタデータ） (2025-07-28T05:17:48Z)
Training and Evaluating Language Models with Template-based Data Generation [5.980612601840882]
我々は、700万以上の合成された小学校数学問題からなるデータセットを作成する。このデータセットは、数学的推論においてLLMを事前学習、微調整、評価するための貴重なリソースとして機能する。
論文参考訳（メタデータ） (2024-11-27T07:32:56Z)
Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch [28.519536719973317]
ScaleQuestはスケーラブルで斬新なデータ合成手法である。複雑な拡張制約を持つシードデータを必要とせずに、スクラッチから質問を生成する。主要なオープンソースモデルの性能を普遍的に向上させることができる。
論文参考訳（メタデータ） (2024-10-24T12:42:04Z)
MIND: Math Informed syNthetic Dialogues for Pretraining LLMs [34.498175178707065]
本稿では,新しい大規模かつ多様なMath Informed syNthetic Dialogue(MIND)生成法を提案する。 MIND は OpenWebMath (OWM) に基づいて合成会話を生成し,新しい数学コーパス MIND-OWM を生成する。会話設定の異なる実験により,対話参加者間の知識ギャップを組み込むことが,高品質な数学データの生成に不可欠であることが判明した。
論文参考訳（メタデータ） (2024-10-15T18:25:53Z)
OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data [8.36384597713879]
OpenMathInstruct-2データセットは、14万の質問解決ペアで構成されている($600Kのユニークな質問) texttLlama-3.1-8B-Base を OpenMath Instruct-2 で微調整すると、texttLlama3.1-8B-Instruct on MATH は 15.9% 向上する。オープンソースへの取り組みを加速するため、我々は商用ライセンス下でコード、微調整されたモデル、OpenMath Instruct-2データセットをリリースしました。
論文参考訳（メタデータ） (2024-10-02T14:00:09Z)
OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文参考訳（メタデータ） (2024-07-13T13:27:57Z)
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。 Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文参考訳（メタデータ） (2024-07-11T09:56:51Z)
Lean Workbook: A large-scale Lean problem set formalized from natural language math problems [50.22847430754973]
大規模な言語モデルは、リーンのような形式言語を使って証明する数学の定理が得意ではありません。この領域で重要な課題は、これらの形式言語で利用可能なトレーニングデータの不足である。本稿では,自然言語の数学的問題をリーン4文に変換するために,合成データを反復的に生成・フィルタリングするパイプラインを提案する。
論文参考訳（メタデータ） (2024-06-06T08:25:43Z)
MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文参考訳（メタデータ） (2024-01-16T08:08:01Z)
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文参考訳（メタデータ） (2023-10-05T17:52:09Z)
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。学習方法は,「フリーランチ」仮説の主張を考察する。データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文参考訳（メタデータ） (2023-05-03T17:55:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。