論文の概要: MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy
- arxiv url: http://arxiv.org/abs/2508.05592v1
- Date: Thu, 07 Aug 2025 17:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.690981
- Title: MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy
- Title(参考訳): MathSmith: 強化政策による合成問題の鍛造による超硬度数学的推論を目指して
- Authors: Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei Tang,
- Abstract要約: MathSmithは、LSM推論を強化するために数学的な問題に挑戦する新しいフレームワークである。
既存の問題を修正するのではなく、MathSmithはPlanetMathからランダムに概念-説明ペアをサンプリングすることで、スクラッチから新しいものを構築する。
難易度を高めるために,9つの事前定義された戦略を合理的な制約として設計する。
実験によると、MathSmithは短いCoT設定と長いCoT設定の両方で既存のベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 43.86485569038631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have achieved substantial progress in mathematical reasoning, yet their advancement is limited by the scarcity of high-quality, high-difficulty training data. Existing synthesis methods largely rely on transforming human-written templates, limiting both diversity and scalability. We propose MathSmith, a novel framework for synthesizing challenging mathematical problems to enhance LLM reasoning. Rather than modifying existing problems, MathSmith constructs new ones from scratch by randomly sampling concept-explanation pairs from PlanetMath, ensuring data independence and avoiding contamination. To increase difficulty, we design nine predefined strategies as soft constraints during rationales. We further adopts reinforcement learning to jointly optimize structural validity, reasoning complexity, and answer consistency. The length of the reasoning trace generated under autoregressive prompting is used to reflect cognitive complexity, encouraging the creation of more demanding problems aligned with long-chain-of-thought reasoning. Experiments across five benchmarks, categorized as easy & medium (GSM8K, MATH-500) and hard (AIME2024, AIME2025, OlympiadBench), show that MathSmith consistently outperforms existing baselines under both short and long CoT settings. Additionally, a weakness-focused variant generation module enables targeted improvement on specific concepts. Overall, MathSmith exhibits strong scalability, generalization, and transferability, highlighting the promise of high-difficulty synthetic data in advancing LLM reasoning capabilities.
- Abstract(参考訳): 大規模言語モデルは、数学的推論においてかなりの進歩を遂げてきたが、その進歩は、高品質で高精度な訓練データの不足によって制限されている。
既存の合成法は主に人書きテンプレートの変換に依存しており、多様性と拡張性の両方を制限している。
LLM推論を強化するために,難解な数学的問題を合成する新しいフレームワークであるMathSmithを提案する。
既存の問題を修正するのではなく、MathSmithはPlanetMathからランダムに概念と説明のペアをサンプリングし、データの独立性を確保し、汚染を避けることで、ゼロから新しいものを構築する。
難易度を高めるために,9つの事前定義された戦略を合理的な制約として設計する。
さらに、構造的妥当性、複雑性の推論、一貫性の解答を共同で最適化するために強化学習を採用する。
自己回帰的プロンプトによって生じる推論トレースの長さは、認知的複雑性を反映し、長鎖の推論と整合したより要求の多い問題の創出を促進するために使用される。
5つのベンチマーク(GSM8K、MATH-500)とハード(AIME2024、AIME2025、OlympiadBench)での実験では、MathSmithは短いCoT設定と長いCoT設定の両方で既存のベースラインを一貫して上回っている。
さらに、弱点に焦点を当てた変種生成モジュールは、特定の概念をターゲットとした改善を可能にする。
全体として、MathSmithは強力なスケーラビリティ、一般化、転送可能性を示し、LLM推論能力の進歩における高次合成データの約束を強調している。
関連論文リスト
- WarriorMath: Enhancing the Mathematical Ability of Large Language Models with a Defect-aware Framework [42.74246647841103]
WarriorMathは数学的問題解決のための欠陥認識フレームワークである。
我々は、複数の専門家のLLMを協調的なプロセスで採用し、問題を生成、批判、洗練させます。
トレーニング段階において、我々は、その弱点に合わせてますます困難なデータを用いてモデルを反復的に微調整する進歩的学習フレームワークを導入する。
論文 参考訳(メタデータ) (2025-08-02T07:45:12Z) - MathFusion: Enhancing Mathematical Problem-solving of LLM through Instruction Fusion [48.443460251524776]
MathFusionはクロスプロブレム命令合成による数学的推論を強化する新しいフレームワークである。
MathFusionは、高いデータ効率を維持しながら、数学的推論を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-20T15:00:41Z) - PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。
提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。
提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-03-04T06:32:30Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - MathCAMPS: Fine-grained Synthesis of Mathematical Problems From Human Curricula [33.5782208232163]
本研究では,高品質な数学問題を大規模に合成する手法であるMath CAMPSを提案する。
それぞれの標準を形式文法でエンコードし、様々な記号問題とその解をサンプリングする。
我々は、記号構造からフォローアップ質問を導き、それらをフォローアップ単語問題に変換する。
論文 参考訳(メタデータ) (2024-07-01T01:56:28Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。