論文の概要: Demystifying Synthetic Data in LLM Pre-training: A Systematic Study of Scaling Laws, Benefits, and Pitfalls
- arxiv url: http://arxiv.org/abs/2510.01631v1
- Date: Thu, 02 Oct 2025 03:24:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.966864
- Title: Demystifying Synthetic Data in LLM Pre-training: A Systematic Study of Scaling Laws, Benefits, and Pitfalls
- Title(参考訳): LLMプレトレーニングにおける合成データのデミスティフィケーション:スケーリング法則,ベネフィット,ピットフォールの体系的研究
- Authors: Feiyang Kang, Newsha Ardalani, Michael Kuchnik, Youssef Emad, Mostafa Elhoushi, Shubhabrata Sengupta, Shang-Wen Li, Ramya Raghavendra, Ruoxi Jia, Carole-Jean Wu,
- Abstract要約: 大規模言語モデル(LLM)のスケーリングにおいて、トレーニングデータは重要な役割を果たすが、高品質なデータは供給が限られている。
自然のWebデータ、多様な合成タイプ(言い換えテキスト、生成された教科書)、および自然と合成データの混合を比較した。
合成テキストの事前学習は、天然のWebテキストの事前学習よりも高速ではない。
- 参考スコア(独自算出の注目度): 25.294408301653576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training data plays a crucial role in Large Language Models (LLM) scaling, yet high quality data is of limited supply. Synthetic data techniques offer a potential path toward sidestepping these limitations. We conduct a large-scale empirical investigation (>1000 LLMs with >100k GPU hours) using a unified protocol and scaling laws, comparing natural web data, diverse synthetic types (rephrased text, generated textbooks), and mixtures of natural and synthetic data. Specifically, we found pre-training on rephrased synthetic data \textit{alone} is not faster than pre-training on natural web texts; while pre-training on 1/3 rephrased synthetic data mixed with 2/3 natural web texts can speed up 5-10x (to reach the same validation loss) at larger data budgets. Pre-training on textbook-style synthetic data \textit{alone} results in notably higher loss on many downstream domains especially at small data budgets. "Good" ratios of synthetic data in training data mixtures depend on the model size and data budget, empirically converging to ~30% for rephrased synthetic data. Larger generator models do not necessarily yield better pre-training data than ~8B-param models. These results contribute mixed evidence on "model collapse" during large-scale single-round (n=1) model training on synthetic data--training on rephrased synthetic data shows no degradation in performance in foreseeable scales whereas training on mixtures of textbook-style pure-generated synthetic data shows patterns predicted by "model collapse". Our work demystifies synthetic data in pre-training, validates its conditional benefits, and offers practical guidance.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリングにおいて、トレーニングデータは重要な役割を果たすが、高品質なデータは供給が限られている。
合成データ技術は、これらの制限をサイドステッピングする潜在的な道筋を提供する。
我々は、統一されたプロトコルとスケーリング法則を用いて、大規模な実証調査(>1000 LLMと>100k GPU時間)を行い、自然ウェブデータ、多様な合成タイプ(リフレーズテキスト、生成された教科書)、および自然データと合成データの混合を比較した。
具体的には,2/3の天然ウェブテキストを混合した1/3の合成データの事前学習は,より大きなデータ予算で5~10倍(同じ検証損失に達するため)に高速化できる。
教科書形式の合成データであるtextit{alone} の事前学習は、特に小さなデータ予算において、多くの下流ドメインにおいて顕著に損失を減少させる。
学習データ混合物中の合成データの「Good」比は, モデルサイズとデータ予算に依存し, 言い換えて30%程度に収束する。
より大規模なジェネレータモデルは、必ずしも ~8B-param モデルよりも優れた事前学習データを得るとは限らない。
これらの結果は, 大規模単ラウンド(n=1)モデルトレーニングにおける「モデル崩壊」の混合証拠として, 予見可能なスケールでの性能低下を示さないが, 教科書形式の純合成合成データの混合学習では「モデル崩壊」によって予測されるパターンが示される。
本研究は, 事前学習における合成データをデミステレーションし, 条件付利益を検証し, 実践的なガイダンスを提供する。
関連論文リスト
- Contrastive Decoding for Synthetic Data Generation in Low-Resource Language Modeling [9.380879437204277]
合成コーパス生成におけるコントラストデコーディングの利点について検討する。
優れた性能を持つモデルからの信号を増幅することにより、合成コーパスを作成し、元のトレーニングデータと混ぜる。
本研究は,合成データと実データとの混合による学習により,言語モデリングの目的と下流タスクの範囲の性能が向上することを示す。
論文 参考訳(メタデータ) (2025-10-09T14:04:52Z) - Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。
合成データがモデル一般化をどのように改善するかを批判的に検討する。
本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-09-07T19:28:52Z) - Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。
この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-04-20T06:45:16Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - How to Synthesize Text Data without Model Collapse? [37.219627817995054]
合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。
半合成データを得るために,人為的データに対するトークン編集を提案する。
論文 参考訳(メタデータ) (2024-12-19T09:43:39Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Online Data Augmentation for Forecasting with Deep Learning [0.33554367023486936]
この研究は、ニューラルネットワークのトレーニング中に合成サンプルを生成するオンラインデータ拡張フレームワークを導入する。
トレーニングプロセスを通じて、実データと合成データのバランスの取れた表現を維持します。
オンラインデータ拡張はオフラインデータ拡張よりも予測性能が向上する、あるいは拡張アプローチがない、という実験結果が示唆されている。
論文 参考訳(メタデータ) (2024-04-25T17:16:13Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。