論文の概要: Characterizing Model Behavior Under Synthetic Data Training: An Empirical Study Across Scales and Mixing Ratios
- arxiv url: http://arxiv.org/abs/2510.05133v1
- Date: Wed, 01 Oct 2025 03:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.837229
- Title: Characterizing Model Behavior Under Synthetic Data Training: An Empirical Study Across Scales and Mixing Ratios
- Title(参考訳): 合成データ学習におけるモデル行動の特徴づけ--スケールと混合比の実証的研究
- Authors: Y. Du, G. Wu, G. Tang, W. Wang, Q. Fan,
- Abstract要約: 本稿では, モデル性能, キャリブレーション, 出力特性を, 各種合成・外部データ比で学習した場合に比較検討する。
モデルが最大20%の合成データで安定した性能を維持するが、劣化は30%以上加速する。
80%以上の外部データを維持するSTaRやセルフインストラクトシステムで採用されている現在のベストプラクティスは、我々の実験によって特定された安全な体制の中でうまく機能する。
- 参考スコア(独自算出の注目度): 1.631115063641726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data generated by large language models has become integral to modern NLP training pipelines, from bootstrapping reasoning capabilities to augmenting instruction-following datasets. While recent work demonstrates successful applications maintaining high external data ratios, systematic understanding of how synthetic data proportion affects model behavior across different scales remains limited. This paper presents a controlled empirical study examining model performance, calibration, and output characteristics when trained on varying synthetic-to-external data ratios. Using the Pythia model suite (410M-12B parameters) across five diverse tasks, we evaluate models after one to three training iterations with synthetic data proportions ranging from 0-50\%. Our key findings include: models maintain stable performance with up to 20\% synthetic data, but degradation accelerates beyond 30\%; larger models (6.9B-12B) show greater robustness to synthetic data than smaller models (410M-1.4B); calibration degradation precedes accuracy loss, providing an early warning signal; and task characteristics matter, with reasoning tasks degrading faster than retrieval tasks under synthetic data training. Importantly, we find that current best practices, such as those employed in STaR and Self-Instruct systems that maintain greater than 80\% external data, operate well within safe regimes identified by our experiments. We provide practical guidance for practitioners on synthetic data budgets based on model scale and task requirements, alongside detailed comparison with concurrent work including Shumailov et al.'s model collapse findings.
- Abstract(参考訳): 大規模言語モデルによって生成された合成データは、ブートストラップ推論機能から命令追従データセットの拡張に至るまで、現代のNLPトレーニングパイプラインに不可欠なものとなっている。
最近の研究は、高い外部データ比を維持するアプリケーションの成功例を示しているが、合成データ比が異なるスケールにわたるモデル行動にどのように影響するかについての体系的な理解は、依然として限られている。
本稿では, モデル性能, キャリブレーション, 出力特性を, 各種合成・外部データ比で学習した場合に比較検討する。
5つのタスクにまたがるPythiaモデルスイート(410M-12Bパラメータ)を用いて,0~50\%の合成データの割合で1~3回のトレーニングを繰り返した後に,モデルを評価する。
モデルでは, 最大20 % の合成データを安定的に維持するが, 劣化は30 % 以上加速し, 大型モデル (6.9B-12B) では, より小型モデル (410M-1.4B), キャリブレーション劣化は精度低下に先行し, 早期警告信号, タスク特性が重要であり, 検索タスクよりも高速に劣化する。
重要なことは、STaRやSelf-Instructシステムで採用されている、80%以上の外部データを維持するような現在のベストプラクティスが、我々の実験によって特定された安全な体制の中でうまく機能していることである。
本稿では,Shumailovらによるモデル崩壊発見を含む同時作業との比較とともに,モデルスケールとタスク要求に基づくデータ予算の実践者に対する実践的ガイダンスを提供する。
関連論文リスト
- Demystifying Synthetic Data in LLM Pre-training: A Systematic Study of Scaling Laws, Benefits, and Pitfalls [25.294408301653576]
大規模言語モデル(LLM)のスケーリングにおいて、トレーニングデータは重要な役割を果たすが、高品質なデータは供給が限られている。
自然のWebデータ、多様な合成タイプ(言い換えテキスト、生成された教科書)、および自然と合成データの混合を比較した。
合成テキストの事前学習は、天然のWebテキストの事前学習よりも高速ではない。
論文 参考訳(メタデータ) (2025-10-02T03:24:42Z) - DAViD: Data-efficient and Accurate Vision Models from Synthetic Data [6.829390872619486]
より小さいが高忠実な合成データセットでモデルを訓練することは可能であることを実証する。
我々のモデルは、類似した精度の基本的なモデルと比較した場合、トレーニングと推論のコストのごく一部しか必要としない。
論文 参考訳(メタデータ) (2025-07-21T08:17:41Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Golden Ratio Weighting Prevents Model Collapse [7.512957145774808]
我々は、実データと合成データを統合するための最適なトレーニング戦略を開発する。
合成データの混合比と重み付け方式が最終モデルの性能に及ぼす影響を特徴付ける。
場合によっては、実データに割り当てられた最適な重みは、黄金比の逆数に対応する。
論文 参考訳(メタデータ) (2025-02-25T10:15:16Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Generating World [19.266191284270793]
生成機械学習モデルは、以前のモデルによって生成されたデータを含むWebスケールデータセットで事前訓練される。
先行研究の中には、ウェブが合成データに圧倒されているため、"モデル崩壊"を警告するものもある。
本稿では,3つの生成モデルタスクセットにまたがるデータ(トレーニング・ワークフロー)の3つの使い方について実験を行った。
論文 参考訳(メタデータ) (2024-10-22T05:49:24Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - SynBench: Task-Agnostic Benchmarking of Pretrained Representations using
Synthetic Data [78.21197488065177]
近年、下流のタスクで大規模なデータで事前訓練された微調整大型モデルが成功し、ディープラーニングにおける重要なパラダイムシフトにつながった。
本稿では,合成データを用いて事前学習した表現の質を測定するためのタスク非依存フレームワークであるtextitSynBenchを提案する。
論文 参考訳(メタデータ) (2022-10-06T15:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。