論文の概要: FLAMES: Improving LLM Math Reasoning via a Fine-Grained Analysis of the Data Synthesis Pipeline
- arxiv url: http://arxiv.org/abs/2508.16514v1
- Date: Fri, 22 Aug 2025 16:37:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.455131
- Title: FLAMES: Improving LLM Math Reasoning via a Fine-Grained Analysis of the Data Synthesis Pipeline
- Title(参考訳): FLAMES:データ合成パイプラインの微粒化解析によるLLM数学的推論の改善
- Authors: Parker Seegmiller, Kartik Mehta, Soumya Saha, Chenyang Tao, Shereen Oraby, Arpit Gupta, Tagyoung Chung, Mohit Bansal, Nanyun Peng,
- Abstract要約: 本稿では,パラメータ rEasoning データ合成のLCMアセスメントフレームワークであるFLAMESを紹介する。
我々のFLAMES実験は、合成データの難易度と多様性の最適バランスに関する貴重な洞察を提供する。
我々は、新しいデータ合成戦略と既存のデータ合成戦略を効果的に組み合わせたFLAMESデータセットを開発した。
- 参考スコア(独自算出の注目度): 71.19227942708741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works improving LLM math reasoning with synthetic data have used unique setups, making comparison of data synthesis strategies impractical. This leaves many unanswered questions about the roles of different factors in the synthetic data pipeline, such as the impact of filtering low-quality problems. To address this gap, we introduce FLAMES, a Framework for LLM Assessment of Math rEasoning Data Synthesis, and perform a systematic study of 10 existing data synthesis strategies and multiple other factors impacting the performance of synthetic math reasoning data. Our FLAMES experiments provide several valuable insights about the optimal balance of difficulty and diversity of synthetic data. First, data agents designed to increase problem complexity lead to best improvements on most math metrics. Second, with a fixed data generation budget, keeping higher problem coverage is more important than keeping only problems with reliable solutions. Third, GSM8K- and MATH-based synthetic data can lead to improvements on competition-level benchmarks, showcasing easy-to-hard generalization. Leveraging insights from our FLAMES experiments, we design two novel data synthesis strategies for improving out-of-domain generalization and robustness. Further, we develop the FLAMES dataset, an effective blend of our novel and existing data synthesis strategies, outperforming public datasets on OlympiadBench (+15.7), CollegeMath (+4.5), GSMPlus (+6.5), and MATH (+3.1). Fine-tuning Qwen2.5-Math-7B on the FLAMES dataset achieves 81.4% on MATH, surpassing larger Llama3 405B, GPT-4o and Claude 3.5 Sonnet.
- Abstract(参考訳): 近年,合成データを用いたLLMの算数推論の改良は,データ合成戦略を非現実的に比較する独自の設定を用いている。
このことは、低品質の問題をフィルタリングするなど、合成データパイプラインにおけるさまざまな要因の役割について、多くの未解決の疑問を残している。
このギャップに対処するために、FLAMES(LLM Assessment for Math rEasoning Data Synthesis, LLM Assessment of Math rEasoning Data Synthesis)を導入し、既存の10個のデータ合成戦略と、合成数学推論データの性能に影響を及ぼす他の要因を体系的に研究する。
我々のFLAMES実験は、合成データの難易度と多様性の最適バランスに関する貴重な洞察を提供する。
まず、問題複雑性を増大させるように設計されたデータエージェントは、ほとんどの数学メトリクスで最高の改善をもたらす。
第二に、固定データ生成予算では、信頼性の高いソリューションにのみ問題を保持するよりも、より高い問題カバレッジを維持することが重要です。
第3に、GSM8KとMATHをベースとした合成データは、競合レベルのベンチマークの改善につながる可能性がある。
FLAMES実験から得られた知見を利用して、領域外一般化とロバスト性を改善するための2つの新しいデータ合成戦略を設計する。
OlympiadBench(+15.7)、CollegeMath(+4.5)、GSMPlus(+6.5)、MATH(+3.1)の公開データセットよりも優れています。
FLAMESデータセット上の微調整Qwen2.5-Math-7Bは、Llama3 405B、GPT-4o、Claude 3.5 Sonnetを上回り、MATHで81.4%を達成した。
関連論文リスト
- Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z) - Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡な分類と急激な相関は、データサイエンスと機械学習における一般的な課題である。
近年の進歩は、大規模言語モデルの柔軟性と生成能力を生かして合成サンプルを生成することを提案した。
本稿では,不均衡な分類とスプリアス相関に対処する上で,合成試料の役割を体系的に研究する新たな理論基盤を開発する。
論文 参考訳(メタデータ) (2024-06-05T21:24:26Z) - JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.45794710162241]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。
そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。
我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文 参考訳(メタデータ) (2024-05-23T09:43:19Z) - Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning [110.80663974060624]
キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
論文 参考訳(メタデータ) (2024-03-04T18:58:30Z) - Generating Faithful Synthetic Data with Large Language Models: A Case
Study in Computational Social Science [13.854807858791652]
我々は、合成データ生成における広範囲な問題に取り組み、その生成分布は、研究者が関心を持つ実世界のデータ分布とは異なることが多い。
本研究では,合成データの忠実度を高めるための3つの戦略について検討する。
本稿では,特定のタスクに対して高忠実度合成データを生成する方法について提案する。
論文 参考訳(メタデータ) (2023-05-24T11:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。