論文の概要: MathMixup: Boosting LLM Mathematical Reasoning with Difficulty-Controllable Data Synthesis and Curriculum Learning
- arxiv url: http://arxiv.org/abs/2601.17006v1
- Date: Wed, 14 Jan 2026 07:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.482716
- Title: MathMixup: Boosting LLM Mathematical Reasoning with Difficulty-Controllable Data Synthesis and Curriculum Learning
- Title(参考訳): MathMixup: 難解なデータ合成とカリキュラム学習によるLLM数学的推論の促進
- Authors: Xuchen Li, Jing Chen, Xuzhao Li, Hao Liang, Xiaohuan Zhou, Taifeng Wang, Wentao Zhang,
- Abstract要約: MathMixupは、高品質で難易度の高い数学的推論問題を生成する新しいデータ合成パラダイムである。
本研究では,MathMixupとそのカリキュラム学習戦略が大規模言語モデルの数学的推論性能を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 17.497429897140695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In mathematical reasoning tasks, the advancement of Large Language Models (LLMs) relies heavily on high-quality training data with clearly defined and well-graded difficulty levels. However, existing data synthesis methods often suffer from limited diversity and lack precise control over problem difficulty, making them insufficient for supporting efficient training paradigms such as curriculum learning. To address these challenges, we propose MathMixup, a novel data synthesis paradigm that systematically generates high-quality, difficulty-controllable mathematical reasoning problems through hybrid and decomposed strategies. Automated self-checking and manual screening are incorporated to ensure semantic clarity and a well-structured difficulty gradient in the synthesized data. Building on this, we construct the MathMixupQA dataset and design a curriculum learning strategy that leverages these graded problems, supporting flexible integration with other datasets. Experimental results show that MathMixup and its curriculum learning strategy significantly enhance the mathematical reasoning performance of LLMs. Fine-tuned Qwen2.5-7B achieves an average score of 52.6\% across seven mathematical benchmarks, surpassing previous state-of-the-art methods. These results fully validate the effectiveness and broad applicability of MathMixup in improving the mathematical reasoning abilities of LLMs and advancing data-centric curriculum learning.
- Abstract(参考訳): 数学的推論タスクでは、LLM(Large Language Models)の進歩は、明確に定義され、難易度の高い高品質なトレーニングデータに大きく依存している。
しかし、既存のデータ合成手法は、限られた多様性に悩まされ、問題の難易度を正確に制御できないことが多いため、カリキュラム学習のような効率的な訓練パラダイムをサポートするには不十分である。
これらの課題に対処するために,ハイブリッド戦略と分解戦略により,高品質で難易度の高い数学的推論問題を体系的に生成する新しいデータ合成パラダイムであるMathMixupを提案する。
自動自己チェックと手動スクリーニングが組み込まれ、セマンティックな明快さと、合成データにおける構造的難易度を確実にする。
これに基づいて、MathMixupQAデータセットを構築し、これらのグレードされた問題を活用し、他のデータセットとの柔軟な統合をサポートするカリキュラム学習戦略を設計する。
実験の結果,MathMixupとそのカリキュラム学習戦略はLLMの数学的推論性能を大幅に向上させることがわかった。
微調整のQwen2.5-7Bは、7つの数学ベンチマークで52.6\%の平均スコアを達成し、従来の最先端の手法を上回った。
これらの結果は、LLMの数学的推論能力の向上とデータ中心のカリキュラム学習の進歩におけるMathMixupの有効性と幅広い適用性を完全に検証した。
関連論文リスト
- MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy [47.27578055313302]
MathSmithは、LSM推論を強化するために数学的な問題に挑戦する新しいフレームワークである。
既存の問題を修正するのではなく、MathSmithはPlanetMathからランダムに概念-説明ペアをサンプリングすることで、スクラッチから新しいものを構築する。
難易度を高めるために,9つの事前定義された戦略を合理的な制約として設計する。
実験によると、MathSmithは短いCoT設定と長いCoT設定の両方で既存のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T17:32:14Z) - WarriorMath: Enhancing the Mathematical Ability of Large Language Models with a Defect-aware Framework [42.74246647841103]
WarriorMathは数学的問題解決のための欠陥認識フレームワークである。
我々は、複数の専門家のLLMを協調的なプロセスで採用し、問題を生成、批判、洗練させます。
トレーニング段階において、我々は、その弱点に合わせてますます困難なデータを用いてモデルを反復的に微調整する進歩的学習フレームワークを導入する。
論文 参考訳(メタデータ) (2025-08-02T07:45:12Z) - MathFusion: Enhancing Mathematical Problem-solving of LLM through Instruction Fusion [48.443460251524776]
MathFusionはクロスプロブレム命令合成による数学的推論を強化する新しいフレームワークである。
MathFusionは、高いデータ効率を維持しながら、数学的推論を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-20T15:00:41Z) - Advancing Mathematical Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages [13.377908992869814]
問題解決データは、一般的な数学的コーパスと比較してモデルの数学的能力を大幅に向上させる。
本研究では, 効果的なデータ合成手法を同定し, チュータシップ増幅合成法が最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-01-23T12:14:57Z) - MathOdyssey: Benchmarking Mathematical Problem-Solving Skills in Large Language Models Using Odyssey Math Data [20.31528845718877]
大規模言語モデル(LLM)は、非常に高度な自然言語理解を持ち、強力な問題解決能力を示した。
本稿では,新たに開発された"MathOdyssey"データセットを用いて,LLMの数学的問題解決能力について検討する。
論文 参考訳(メタデータ) (2024-06-26T13:02:35Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。