論文の概要: Advancing Mathematical Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages
- arxiv url: http://arxiv.org/abs/2501.14002v3
- Date: Mon, 24 Mar 2025 02:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:32:25.712639
- Title: Advancing Mathematical Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages
- Title(参考訳): 言語モデルにおける数学的推論の促進:問題解決データ、データ合成方法、訓練段階の影響
- Authors: Zui Chen, Tianqiao Liu, Mi Tian, Qing Tong, Weiqi Luo, Zitao Liu,
- Abstract要約: 問題解決データは、一般的な数学的コーパスと比較してモデルの数学的能力を大幅に向上させる。
本研究では, 効果的なデータ合成手法を同定し, チュータシップ増幅合成法が最高の性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 13.377908992869814
- License:
- Abstract: Mathematical reasoning remains a challenging area for large language models (LLMs), prompting the development of math-specific LLMs such as LLEMMA, DeepSeekMath, and Qwen2-Math, among others. These models typically follow a two-stage training paradigm: pre-training with math-related corpora and post-training with problem datasets for supervised fine-tuning (SFT). Despite these efforts, the improvements in mathematical reasoning achieved through continued pre-training (CPT) are often less significant compared to those obtained via SFT. This study addresses this discrepancy by exploring alternative strategies during the pre-training phase, focusing on the use of problem-solving data over general mathematical corpora. We investigate three primary research questions: (1) Can problem-solving data enhance the model's mathematical reasoning capabilities more effectively than general mathematical corpora during CPT? (2) Are synthetic data from the same source equally effective, and which synthesis methods are most efficient? (3) How do the capabilities developed from the same problem-solving data differ between the CPT and SFT stages, and what factors contribute to these differences? Our findings indicate that problem-solving data significantly enhances the model's mathematical capabilities compared to general mathematical corpora. We also identify effective data synthesis methods, demonstrating that the tutorship amplification synthesis method achieves the best performance. Furthermore, while SFT facilitates instruction-following abilities, it underperforms compared to CPT with the same data, which can be partially attributed to its poor learning capacity for more challenging problem-solving data. These insights provide valuable guidance for optimizing the mathematical reasoning capabilities of LLMs, culminating in our development of a powerful mathematical base model called MathGPT-8B.
- Abstract(参考訳): 数学的推論は、LLEMMA、DeepSeekMath、Qwen2-Mathなどの数学固有のLLMの開発を促進するため、大きな言語モデル(LLM)にとって難しい領域である。
これらのモデルは典型的には2段階のトレーニングパラダイムに従っており、数学関連のコーパスによる事前トレーニングと、教師付き微調整(SFT)のための問題データセットによる後トレーニングである。
これらの努力にもかかわらず、継続事前学習(CPT)によって達成された数学的推論の改善は、SFTで得られたものよりも顕著でないことが多い。
本研究は, 一般数学的コーパス上の問題解決データの利用に着目し, 事前学習段階における代替戦略を探求することによって, この相違に対処するものである。
1)CPT中の一般的な数学的コーパスよりも、モデルの数学的推論能力を高めることができるか?
2) 同一源からの合成データは等しく有効であり、どの合成方法が最も効率的か?
(3)同じ問題解決データから発達した能力は, CPT と SFT の段階によってどのように異なるのか。
以上の結果から,問題解決データは一般の数学的コーパスと比較して,モデルの数学的能力を大幅に向上させることがわかった。
また, 効果的なデータ合成手法を同定し, チュータシップ増幅合成法が最高の性能を発揮することを示す。
さらに、SFTは命令追従能力を促進するが、同じデータでCPTと比較すると性能が劣る。
これらの知見は、LLMの数学的推論能力を最適化するための貴重なガイダンスを提供し、MathGPT-8Bと呼ばれる強力な数学的ベースモデルの開発を決定づける。
関連論文リスト
- Integrating Arithmetic Learning Improves Mathematical Reasoning in Smaller Models [0.0]
高品質なデータに事前訓練された大規模なモデルは、様々な推論タスクにおいて優れたパフォーマンスを示す。
より小さな学生モデルは教師モデルから学び、質問を言い換えるなどのデータ拡張を行う。
これらの努力にもかかわらず、より小さなモデルは算術計算に苦慮し、数学的推論の誤りにつながる。
論文 参考訳(メタデータ) (2025-02-18T13:43:06Z) - MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task [49.355810887265925]
数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。
我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。
次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
論文 参考訳(メタデータ) (2025-02-17T11:22:24Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - Combining physics-based and data-driven models: advancing the frontiers of research with Scientific Machine Learning [3.912796219404492]
機械学習は物理に基づくモデルとデータ駆動モデルを組み合わせる。
SciMLを使えば、物理と数学的知識を機械学習アルゴリズムに注入できる。
我々は、偏微分方程式によって支配される複雑な問題を解くために、多種多様なSciML戦略の大きな可能性について論じる。
論文 参考訳(メタデータ) (2025-01-30T19:09:38Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。
LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。
この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文 参考訳(メタデータ) (2024-04-19T08:45:42Z) - SAAS: Solving Ability Amplification Strategy for Enhanced Mathematical Reasoning in Large Language Models [4.090307917818891]
我々は,CoT(Chain-of-Thought)学習とPoT(Program-of-Thought)学習の統合に注力する。
本稿では,CoT学習からPoT学習へ戦略的に移行する,SAAS(Solving Ability Amplification Strategy)という逐次学習手法を提案する。
論文 参考訳(メタデータ) (2024-04-05T04:25:47Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。