論文の概要: SAND-Math: Using LLMs to Generate Novel, Difficult and Useful Mathematics Questions and Answers
- arxiv url: http://arxiv.org/abs/2507.20527v2
- Date: Tue, 29 Jul 2025 17:02:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 12:52:36.856621
- Title: SAND-Math: Using LLMs to Generate Novel, Difficult and Useful Mathematics Questions and Answers
- Title(参考訳): SAND-Math: LLMを使って新しい、難解で有用な数学質問と回答を生成する
- Authors: Chaitanya Manem, Pratik Prabhanjan Brahma, Prakamya Mishra, Zicheng Liu, Emad Barsoum,
- Abstract要約: textbfSAND-Math (Synthetic Augmented Novel and Difficult Mathematics problem and Solution)を紹介する。
まず、スクラッチから高品質な問題を発生させ、次に新しい textbfDifficulty Hiking ステップを通じて、その複雑性を体系的に高めます。
平均問題の難易度を5.02から5.98に引き上げることで、AIME25のパフォーマンスを46.38%から49.23%に引き上げる。
- 参考スコア(独自算出の注目度): 10.558690357768336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The demand for Large Language Models (LLMs) capable of sophisticated mathematical reasoning is growing across industries. However, the development of performant mathematical LLMs is critically bottlenecked by the scarcity of difficult, novel training data. We introduce \textbf{SAND-Math} (Synthetic Augmented Novel and Difficult Mathematics problems and solutions), a pipeline that addresses this by first generating high-quality problems from scratch and then systematically elevating their complexity via a new \textbf{Difficulty Hiking} step. We demonstrate the effectiveness of our approach through two key findings. First, augmenting a strong baseline with SAND-Math data significantly boosts performance, outperforming the next-best synthetic dataset by \textbf{$\uparrow$ 17.85 absolute points} on the AIME25 benchmark. Second, in a dedicated ablation study, we show our Difficulty Hiking process is highly effective: by increasing average problem difficulty from 5.02 to 5.98, this step lifts AIME25 performance from 46.38\% to 49.23\%. The full generation pipeline, final dataset, and a fine-tuned model form a practical and scalable toolkit for building more capable and efficient mathematical reasoning LLMs. SAND-Math dataset is released here: \href{https://huggingface.co/datasets/amd/SAND-MATH}{https://huggingface.co/datasets/amd/SAND-MATH}
- Abstract(参考訳): 高度な数学的推論が可能な大規模言語モデル(LLM)の需要は、業界全体で増加している。
しかし, 高性能な数学的LLMの開発は, 難易度の高い新しいトレーニングデータの不足によって著しくボトルネックとなっている。
本稿では,まず高次問題をスクラッチから生成し,次にその複雑性を新しい「textbf{SAND-Math(Synthetic Augmented Novel and Difficult Mathematics problem and Solution)」ステップで体系的に高めることで,この問題に対処するパイプラインについて紹介する。
提案手法の有効性を2つの重要な知見から実証する。
まず、SAND-Mathデータによる強いベースラインの増大はパフォーマンスを大幅に向上させ、AIME25ベンチマークにおけるtextbf{$\uparrow$ 17.85絶対点による次の最良合成データセットよりも優れている。
第2に、専用アブレーション研究では、平均問題難易度を5.02から5.98に引き上げることにより、AIME25の性能を46.38\%から49.23\%に上げるという難易度ハイキングプロセスが極めて効果的であることを示す。
完全な生成パイプライン、最終的なデータセット、微調整されたモデルは、より有能で効率的な数学的推論 LLM を構築するための実用的でスケーラブルなツールキットを形成する。
SAND-Mathデータセットは以下にリリースされている。 \href{https://huggingface.co/datasets/amd/SAND-MATH}{https://huggingface.co/datasets/amd/SAND-MATH}
関連論文リスト
- MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。
本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。
HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文 参考訳(メタデータ) (2024-10-13T20:09:41Z) - OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data [8.36384597713879]
OpenMathInstruct-2データセットは、14万の質問解決ペアで構成されている($600Kのユニークな質問)
texttLlama-3.1-8B-Base を OpenMath Instruct-2 で微調整すると、texttLlama3.1-8B-Instruct on MATH は 15.9% 向上する。
オープンソースへの取り組みを加速するため、我々は商用ライセンス下でコード、微調整されたモデル、OpenMath Instruct-2データセットをリリースしました。
論文 参考訳(メタデータ) (2024-10-02T14:00:09Z) - InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning [13.728595670907136]
InfinityMATHは、プログラム数学的推論のためのスケーラブルな命令チューニングデータセットである。
オープンソースの言語とLlama2やCodeLlamaといったコードモデルによる微調整実験は、InfinityMATHの実用的メリットを実証している。
論文 参考訳(メタデータ) (2024-08-09T08:18:20Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - Lean Workbook: A large-scale Lean problem set formalized from natural language math problems [51.15420267178]
大規模な言語モデルは、リーンのような形式言語を使って証明する数学の定理が得意ではありません。
この領域で重要な課題は、これらの形式言語で利用可能なトレーニングデータの不足である。
本稿では,自然言語の数学的問題をリーン4文に変換するために,合成データを反復的に生成・フィルタリングするパイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-06T08:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。