論文の概要: More Data or Better Data? A Critical Analysis of Data Selection and Synthesis for Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2510.07169v1
- Date: Wed, 08 Oct 2025 16:07:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.610609
- Title: More Data or Better Data? A Critical Analysis of Data Selection and Synthesis for Mathematical Reasoning
- Title(参考訳): より多くのデータか、より良いデータか? 数学的推論のためのデータ選択と合成の批判的分析
- Authors: Yike Zhao, Simin Guo, Ziqing Yang, Shifan Han, Dahua Lin, Fei Tan,
- Abstract要約: 我々は,オープンソースのデータセットと数学的推論のためのデータ合成手法を包括的に分析する。
以上の結果から,より解釈可能な形式のデータ構築や,より強力なモデルからの抽出は,単にデータボリュームをスケールアップするよりも優れていることが示唆された。
- 参考スコア(独自算出の注目度): 47.13636836547429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reasoning capabilities of Large Language Models (LLMs) play a critical role in many downstream tasks, yet depend strongly on the quality of training data. Despite various proposed data construction methods, their practical utility in real-world pipelines remains underexplored. In this work, we conduct a comprehensive analysis of open-source datasets and data synthesis techniques for mathematical reasoning, evaluating them under a unified pipeline designed to mirror training and deployment scenarios. We further distill effective data selection strategies and identify practical methods suitable for industrial applications. Our findings highlight that structuring data in more interpretable formats, or distilling from stronger models often outweighs simply scaling up data volume. This study provides actionable guidance for integrating training data to enhance LLM capabilities, supporting both cost-effective data curation and scalable model enhancement. We hope this work will inspire further research on how to balance "more data" versus "better data" for real-world reasoning tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力は多くの下流タスクにおいて重要な役割を果たすが、トレーニングデータの品質に強く依存する。
様々なデータ構築手法が提案されているが、実際のパイプラインにおける実用性は未定である。
本研究では,オープンソースのデータセットと数学的推論のためのデータ合成手法を包括的に分析し,トレーニングとデプロイメントのシナリオを反映した統合パイプラインで評価する。
さらに、有効なデータ選択戦略を蒸留し、産業用途に適した実用的な方法を特定する。
以上の結果から,より解釈可能な形式のデータ構築や,より強力なモデルからの抽出は,単にデータボリュームをスケールアップするよりも優れていることが示唆された。
本研究は,LLM機能向上のためのトレーニングデータ統合のための実用的なガイダンスを提供し,費用対効果の高いデータキュレーションとスケーラブルなモデル拡張の両方をサポートする。
この研究が、現実世界の推論タスクに対して、"より多くのデータ"と"より良いデータ"のバランスをとる方法について、さらなる研究を促すことを期待しています。
関連論文リスト
- Data Efficacy for Language Model Training [29.901090317084005]
データは言語モデル(LM)の訓練の基礎となる。
近年の研究では、トレーニングデータの最小または最適サブセットを選択することで、パフォーマンスを最大化することを目的としている。
本研究は、LMトレーニングにおけるデータの有効性を検討するための一般的なパラダイムであるDELTを紹介する。
論文 参考訳(メタデータ) (2025-06-26T17:59:07Z) - Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study [55.09905978813599]
大規模言語モデル(LLM)は、データ分析タスクの自動化を約束する。
しかし、オープンソースモデルは、このような推論集約的なシナリオにおいて、重大な制限に直面している。
本研究では,オープンソースLLMのデータ解析機能を強化するための戦略について検討する。
論文 参考訳(メタデータ) (2025-06-24T17:04:23Z) - Data Assetization via Resources-decoupled Federated Learning [7.347554648348435]
フェデレートラーニング(FL)は、プライバシーを維持しながら協調トレーニングモデルに効果的なアプローチを提供する。
まず,3つの関係者を巻き込んだ資源分離FLの枠組みを提案する。
次に,QD-RDFL(Quality-Aware Dynamic Resources-Decoupled FL Algorithm)を提案する。
論文 参考訳(メタデータ) (2025-01-24T15:49:04Z) - Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Text Classification [7.357494019212501]
本研究では,合成データと実世界の分布を協調する効率的な重み付け手法を提案する。
複数のテキスト分類タスクにおいて,提案手法の有効性を実証的に評価した。
論文 参考訳(メタデータ) (2024-10-28T20:53:49Z) - A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。
これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文 参考訳(メタデータ) (2024-10-16T16:12:39Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。