論文の概要: Advancing Math Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages
- arxiv url: http://arxiv.org/abs/2501.14002v2
- Date: Tue, 18 Feb 2025 07:26:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:04:31.502555
- Title: Advancing Math Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages
- Title(参考訳): 言語モデルにおける数学的推論の促進:問題解決データ、データ合成方法、訓練段階の影響
- Authors: Zui Chen, Tianqiao Liu, Mi Tian, Qing Tong, Weiqi Luo, Zitao Liu,
- Abstract要約: 問題解決データは、一般的な数学的コーパスと比較してモデルの数学的能力を大幅に向上させる。
本研究では, 効果的なデータ合成手法を同定し, チュータシップ増幅合成法が最高の性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 13.377908992869814
- License:
- Abstract: Mathematical reasoning remains a challenging area for large language models (LLMs), prompting the development of math-specific LLMs such as LLEMMA, DeepSeekMath, and Qwen2-Math, among others. These models typically follow a two-stage training paradigm: pre-training with math-related corpora and post-training with problem datasets for supervised fine-tuning (SFT). Despite these efforts, the improvements in mathematical reasoning achieved through continued pre-training (CPT) are often less significant compared to those obtained via SFT. This study addresses this discrepancy by exploring alternative strategies during the pre-training phase, focusing on the use of problem-solving data over general mathematical corpora. We investigate three primary research questions: (1) Can problem-solving data enhance the model's mathematical reasoning capabilities more effectively than general mathematical corpora during CPT? (2) Are synthetic data from the same source equally effective, and which synthesis methods are most efficient? (3) How do the capabilities developed from the same problem-solving data differ between the CPT and SFT stages, and what factors contribute to these differences? Our findings indicate that problem-solving data significantly enhances the model's mathematical capabilities compared to general mathematical corpora. We also identify effective data synthesis methods, demonstrating that the tutorship amplification synthesis method achieves the best performance. Furthermore, while SFT facilitates instruction-following abilities, it underperforms compared to CPT with the same data, which can be partially attributed to its poor learning capacity for more challenging problem-solving data. These insights provide valuable guidance for optimizing the mathematical reasoning capabilities of LLMs, culminating in our development of a powerful mathematical base model called MathGPT-8B.
- Abstract(参考訳): 数学的推論は、LLEMMA、DeepSeekMath、Qwen2-Mathなどの数学固有のLLMの開発を促進するため、大きな言語モデル(LLM)にとって難しい領域である。
これらのモデルは典型的には2段階のトレーニングパラダイムに従っており、数学関連のコーパスによる事前トレーニングと、教師付き微調整(SFT)のための問題データセットによる後トレーニングである。
これらの努力にもかかわらず、継続事前学習(CPT)によって達成された数学的推論の改善は、SFTで得られたものよりも顕著でないことが多い。
本研究は, 一般数学的コーパス上の問題解決データの利用に着目し, 事前学習段階における代替戦略を探求することによって, この相違に対処するものである。
1)CPT中の一般的な数学的コーパスよりも、モデルの数学的推論能力を高めることができるか?
2) 同一源からの合成データは等しく有効であり、どの合成方法が最も効率的か?
(3)同じ問題解決データから発達した能力は, CPT と SFT の段階によってどのように異なるのか。
以上の結果から,問題解決データは一般の数学的コーパスと比較して,モデルの数学的能力を大幅に向上させることがわかった。
また, 効果的なデータ合成手法を同定し, チュータシップ増幅合成法が最高の性能を発揮することを示す。
さらに、SFTは命令追従能力を促進するが、同じデータでCPTと比較すると性能が劣る。
これらの知見は、LLMの数学的推論能力を最適化するための貴重なガイダンスを提供し、MathGPT-8Bと呼ばれる強力な数学的ベースモデルの開発を決定づける。
関連論文リスト
- MaD-Scientist: AI-based Scientist solving Convection-Diffusion-Reaction Equations Using Massive PINN-Based Prior Data [22.262191225577244]
科学的基礎モデル(SFM)にも同様のアプローチが適用できるかどうかを考察する。
数学辞書の任意の線形結合によって構築された偏微分方程式(PDE)の解の形で、低コストな物理情報ニューラルネットワーク(PINN)に基づく近似された事前データを収集する。
本研究では,1次元対流拡散反応方程式に関する実験的な証拠を提供する。
論文 参考訳(メタデータ) (2024-10-09T00:52:00Z) - Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data [53.433309883370974]
本研究では,大規模言語モデルの推論能力を高めるための学習信号としてグラフベースの合成推論データを使用することの可能性と限界について検討する。
2つの確立された自然言語推論タスクにおいて,合成グラフに基づく推論データによる教師付き微調整が,他の標準評価ベンチマークでの有効性を損なうことなく,LLMの推論性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T03:39:09Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。
LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。
この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文 参考訳(メタデータ) (2024-04-19T08:45:42Z) - SAAS: Solving Ability Amplification Strategy for Enhanced Mathematical Reasoning in Large Language Models [4.090307917818891]
我々は,CoT(Chain-of-Thought)学習とPoT(Program-of-Thought)学習の統合に注力する。
本稿では,CoT学習からPoT学習へ戦略的に移行する,SAAS(Solving Ability Amplification Strategy)という逐次学習手法を提案する。
論文 参考訳(メタデータ) (2024-04-05T04:25:47Z) - How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition [64.86360698067764]
本研究は, 教師付き微調整における数学的推論, コード生成, 一般人適応能力間のデータ合成の相互作用に着目した。
我々の実験では、異なる能力のスケールが異なり、より大きなモデルでは、通常、同じ量のデータで優れたパフォーマンスを示す。
その結果, 合成データの量は, 合成比よりも性能に影響を及ぼすことが示唆された。
論文 参考訳(メタデータ) (2023-10-09T07:56:16Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。