論文の概要: Characterizing Model Behavior Under Synthetic Data Training: An Empirical Study Across Scales and Mixing Ratios
- arxiv url: http://arxiv.org/abs/2510.05133v1
- Date: Wed, 01 Oct 2025 03:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.837229
- Title: Characterizing Model Behavior Under Synthetic Data Training: An Empirical Study Across Scales and Mixing Ratios
- Title(参考訳): 合成データ学習におけるモデル行動の特徴づけ--スケールと混合比の実証的研究
- Authors: Y. Du, G. Wu, G. Tang, W. Wang, Q. Fan,
- Abstract要約: 本稿では, モデル性能, キャリブレーション, 出力特性を, 各種合成・外部データ比で学習した場合に比較検討する。
モデルが最大20%の合成データで安定した性能を維持するが、劣化は30%以上加速する。
80%以上の外部データを維持するSTaRやセルフインストラクトシステムで採用されている現在のベストプラクティスは、我々の実験によって特定された安全な体制の中でうまく機能する。
- 参考スコア(独自算出の注目度): 1.631115063641726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data generated by large language models has become integral to modern NLP training pipelines, from bootstrapping reasoning capabilities to augmenting instruction-following datasets. While recent work demonstrates successful applications maintaining high external data ratios, systematic understanding of how synthetic data proportion affects model behavior across different scales remains limited. This paper presents a controlled empirical study examining model performance, calibration, and output characteristics when trained on varying synthetic-to-external data ratios. Using the Pythia model suite (410M-12B parameters) across five diverse tasks, we evaluate models after one to three training iterations with synthetic data proportions ranging from 0-50\%. Our key findings include: models maintain stable performance with up to 20\% synthetic data, but degradation accelerates beyond 30\%; larger models (6.9B-12B) show greater robustness to synthetic data than smaller models (410M-1.4B); calibration degradation precedes accuracy loss, providing an early warning signal; and task characteristics matter, with reasoning tasks degrading faster than retrieval tasks under synthetic data training. Importantly, we find that current best practices, such as those employed in STaR and Self-Instruct systems that maintain greater than 80\% external data, operate well within safe regimes identified by our experiments. We provide practical guidance for practitioners on synthetic data budgets based on model scale and task requirements, alongside detailed comparison with concurrent work including Shumailov et al.'s model collapse findings.
- Abstract(参考訳): 大規模言語モデルによって生成された合成データは、ブートストラップ推論機能から命令追従データセットの拡張に至るまで、現代のNLPトレーニングパイプラインに不可欠なものとなっている。
最近の研究は、高い外部データ比を維持するアプリケーションの成功例を示しているが、合成データ比が異なるスケールにわたるモデル行動にどのように影響するかについての体系的な理解は、依然として限られている。
本稿では, モデル性能, キャリブレーション, 出力特性を, 各種合成・外部データ比で学習した場合に比較検討する。
5つのタスクにまたがるPythiaモデルスイート(410M-12Bパラメータ)を用いて,0~50\%の合成データの割合で1~3回のトレーニングを繰り返した後に,モデルを評価する。
モデルでは, 最大20 % の合成データを安定的に維持するが, 劣化は30 % 以上加速し, 大型モデル (6.9B-12B) では, より小型モデル (410M-1.4B), キャリブレーション劣化は精度低下に先行し, 早期警告信号, タスク特性が重要であり, 検索タスクよりも高速に劣化する。
重要なことは、STaRやSelf-Instructシステムで採用されている、80%以上の外部データを維持するような現在のベストプラクティスが、我々の実験によって特定された安全な体制の中でうまく機能していることである。
本稿では,Shumailovらによるモデル崩壊発見を含む同時作業との比較とともに,モデルスケールとタスク要求に基づくデータ予算の実践者に対する実践的ガイダンスを提供する。
関連論文リスト
- Demystifying Synthetic Data in LLM Pre-training: A Systematic Study of Scaling Laws, Benefits, and Pitfalls [25.294408301653576]
大規模言語モデル(LLM)のスケーリングにおいて、トレーニングデータは重要な役割を果たすが、高品質なデータは供給が限られている。
自然のWebデータ、多様な合成タイプ(言い換えテキスト、生成された教科書)、および自然と合成データの混合を比較した。
合成テキストの事前学習は、天然のWebテキストの事前学習よりも高速ではない。
論文 参考訳(メタデータ) (2025-10-02T03:24:42Z) - DAViD: Data-efficient and Accurate Vision Models from Synthetic Data [6.829390872619486]
より小さいが高忠実な合成データセットでモデルを訓練することは可能であることを実証する。
我々のモデルは、類似した精度の基本的なモデルと比較した場合、トレーニングと推論のコストのごく一部しか必要としない。
論文 参考訳(メタデータ) (2025-07-21T08:17:41Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Golden Ratio Weighting Prevents Model Collapse [7.512957145774808]
我々は、実データと合成データを統合するための最適なトレーニング戦略を開発する。
合成データの混合比と重み付け方式が最終モデルの性能に及ぼす影響を特徴付ける。
場合によっては、実データに割り当てられた最適な重みは、黄金比の逆数に対応する。
論文 参考訳(メタデータ) (2025-02-25T10:15:16Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - SynBench: Task-Agnostic Benchmarking of Pretrained Representations using
Synthetic Data [78.21197488065177]
近年、下流のタスクで大規模なデータで事前訓練された微調整大型モデルが成功し、ディープラーニングにおける重要なパラダイムシフトにつながった。
本稿では,合成データを用いて事前学習した表現の質を測定するためのタスク非依存フレームワークであるtextitSynBenchを提案する。
論文 参考訳(メタデータ) (2022-10-06T15:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。