Fugu-MT 論文翻訳(概要): Advancing Math Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages

論文の概要: Advancing Math Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages

arxiv url: http://arxiv.org/abs/2501.14002v2
Date: Tue, 18 Feb 2025 07:26:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 17:59:03.316953
Title: Advancing Math Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages
Title（参考訳）: 言語モデルにおける数学的推論の促進:問題解決データ、データ合成方法、訓練段階の影響
Authors: Zui Chen, Tianqiao Liu, Mi Tian, Qing Tong, Weiqi Luo, Zitao Liu,
Abstract要約: 問題解決データは、一般的な数学的コーパスと比較してモデルの数学的能力を大幅に向上させる。本研究では, 効果的なデータ合成手法を同定し, チュータシップ増幅合成法が最高の性能を発揮することを示す。
参考スコア（独自算出の注目度）: 13.377908992869814
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mathematical reasoning remains a challenging area for large language models (LLMs), prompting the development of math-specific LLMs such as LLEMMA, DeepSeekMath, and Qwen2-Math, among others. These models typically follow a two-stage training paradigm: pre-training with math-related corpora and post-training with problem datasets for supervised fine-tuning (SFT). Despite these efforts, the improvements in mathematical reasoning achieved through continued pre-training (CPT) are often less significant compared to those obtained via SFT. This study addresses this discrepancy by exploring alternative strategies during the pre-training phase, focusing on the use of problem-solving data over general mathematical corpora. We investigate three primary research questions: (1) Can problem-solving data enhance the model's mathematical reasoning capabilities more effectively than general mathematical corpora during CPT? (2) Are synthetic data from the same source equally effective, and which synthesis methods are most efficient? (3) How do the capabilities developed from the same problem-solving data differ between the CPT and SFT stages, and what factors contribute to these differences? Our findings indicate that problem-solving data significantly enhances the model's mathematical capabilities compared to general mathematical corpora. We also identify effective data synthesis methods, demonstrating that the tutorship amplification synthesis method achieves the best performance. Furthermore, while SFT facilitates instruction-following abilities, it underperforms compared to CPT with the same data, which can be partially attributed to its poor learning capacity for more challenging problem-solving data. These insights provide valuable guidance for optimizing the mathematical reasoning capabilities of LLMs, culminating in our development of a powerful mathematical base model called MathGPT-8B.
Abstract（参考訳）: 数学的推論は、LLEMMA、DeepSeekMath、Qwen2-Mathなどの数学固有のLLMの開発を促進するため、大きな言語モデル(LLM)にとって難しい領域である。これらのモデルは典型的には2段階のトレーニングパラダイムに従っており、数学関連のコーパスによる事前トレーニングと、教師付き微調整(SFT)のための問題データセットによる後トレーニングである。これらの努力にもかかわらず、継続事前学習(CPT)によって達成された数学的推論の改善は、SFTで得られたものよりも顕著でないことが多い。本研究は, 一般数学的コーパス上の問題解決データの利用に着目し, 事前学習段階における代替戦略を探求することによって, この相違に対処するものである。 1)CPT中の一般的な数学的コーパスよりも、モデルの数学的推論能力を高めることができるか? 2) 同一源からの合成データは等しく有効であり、どの合成方法が最も効率的か? (3)同じ問題解決データから発達した能力は, CPT と SFT の段階によってどのように異なるのか。以上の結果から,問題解決データは一般の数学的コーパスと比較して,モデルの数学的能力を大幅に向上させることがわかった。また, 効果的なデータ合成手法を同定し, チュータシップ増幅合成法が最高の性能を発揮することを示す。さらに、SFTは命令追従能力を促進するが、同じデータでCPTと比較すると性能が劣る。これらの知見は、LLMの数学的推論能力を最適化するための貴重なガイダンスを提供し、MathGPT-8Bと呼ばれる強力な数学的ベースモデルの開発を決定づける。

関連論文リスト

From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics [79.81905350372067]
我々は文脈的数学的推論を通してギャップを研究する。 AIMEとMATH-500の問題を2つのコンテキスト設定に再利用するベンチマークであるContextMATHを紹介する。オープンソースモデルはSGとCSで13、34ポイント減少し、プロプライエタリモデルは13、20ポイント減少している。
論文参考訳（メタデータ） (2026-01-30T14:56:04Z)
MathMixup: Boosting LLM Mathematical Reasoning with Difficulty-Controllable Data Synthesis and Curriculum Learning [17.497429897140695]
MathMixupは、高品質で難易度の高い数学的推論問題を生成する新しいデータ合成パラダイムである。本研究では,MathMixupとそのカリキュラム学習戦略が大規模言語モデルの数学的推論性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2026-01-14T07:28:42Z)
Mathematical artificial data for operator learning [1.4579344926652846]
我々は,物理法則とデータ駆動学習を統合し,大規模演算子発見を容易にする新しいパラダイムであるMathematical Artificial Data(MAD)フレームワークを提案する。様々な微分方程式のシナリオにおいて,MADの一般化性と優れた効率/精度を示す。
論文参考訳（メタデータ） (2025-07-09T11:23:05Z)
Data Diversification Methods In Alignment Enhance Math Performance In LLMs [32.04990280074816]
好み最適化におけるデータ多様化戦略は,大規模言語モデルの数学的推論能力をいかに向上させるかを検討する。以上の結果から,戦略的に多様化した嗜好データにより,モデルが数学的推論性能を大幅に向上させることができることが示唆された。
論文参考訳（メタデータ） (2025-07-02T22:12:03Z)
RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library [58.404895570822184]
RV-Synは、新しい数学的合成手法である。このライブラリからPython形式の関数を組み合わせることで、グラフをソリューションとして生成する。構築したグラフに基づいて,解誘導論理認識問題生成を実現する。
論文参考訳（メタデータ） (2025-04-29T04:42:02Z)
MathFusion: Enhancing Mathematic Problem-solving of LLM through Instruction Fusion [48.443460251524776]
MathFusionはクロスプロブレム命令合成による数学的推論を強化する新しいフレームワークである。 MathFusionは、高いデータ効率を維持しながら、数学的推論を大幅に改善する。
論文参考訳（メタデータ） (2025-03-20T15:00:41Z)
Integrating Arithmetic Learning Improves Mathematical Reasoning in Smaller Models [0.0]
高品質なデータに事前訓練された大規模なモデルは、様々な推論タスクにおいて優れたパフォーマンスを示す。より小さな学生モデルは教師モデルから学び、質問を言い換えるなどのデータ拡張を行う。これらの努力にもかかわらず、より小さなモデルは算術計算に苦慮し、数学的推論の誤りにつながる。
論文参考訳（メタデータ） (2025-02-18T13:43:06Z)
MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task [49.355810887265925]
数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
論文参考訳（メタデータ） (2025-02-17T11:22:24Z)
Combining physics-based and data-driven models: advancing the frontiers of research with Scientific Machine Learning [3.912796219404492]
SciMLは物理学に基づくモデルとデータ駆動モデルを組み合わせた研究分野である。データ駆動モデルは、入力データと出力データの間の関係を抽出することを目的としている。 SciMLのヒト心機能シミュレーションへの応用について検討した。
論文参考訳（メタデータ） (2025-01-30T19:09:38Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。 LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文参考訳（メタデータ） (2024-04-19T08:45:42Z)
SAAS: Solving Ability Amplification Strategy for Enhanced Mathematical Reasoning in Large Language Models [4.090307917818891]
我々は,CoT(Chain-of-Thought)学習とPoT(Program-of-Thought)学習の統合に注力する。本稿では,CoT学習からPoT学習へ戦略的に移行する,SAAS(Solving Ability Amplification Strategy)という逐次学習手法を提案する。
論文参考訳（メタデータ） (2024-04-05T04:25:47Z)
Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning [110.80663974060624]
キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。 KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。 KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
論文参考訳（メタデータ） (2024-03-04T18:58:30Z)
Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文参考訳（メタデータ） (2022-09-29T18:11:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。