論文の概要: On the Dangers of Bootstrapping Generation for Continual Learning and Beyond
- arxiv url: http://arxiv.org/abs/2512.11867v1
- Date: Fri, 05 Dec 2025 15:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.742691
- Title: On the Dangers of Bootstrapping Generation for Continual Learning and Beyond
- Title(参考訳): 連続学習におけるブートストラップ生成の危険性について
- Authors: Daniil Zverev, A. Sophia Koepke, Joao F. Henriques,
- Abstract要約: 本稿では,合成データが学習目的に有意なバイアスやばらつきをもたらすことを示す統計分析を行った。
この劣化を定量化し、最先端のGER法が潜在空間におけるアライメントを維持できないことを示す。
- 参考スコア(独自算出の注目度): 8.530455607001828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of synthetically generated data for training models is becoming a common practice. While generated data can augment the training data, repeated training on synthetic data raises concerns about distribution drift and degradation of performance due to contamination of the dataset. We investigate the consequences of this bootstrapping process through the lens of continual learning, drawing a connection to Generative Experience Replay (GER) methods. We present a statistical analysis showing that synthetic data introduces significant bias and variance into training objectives, weakening the reliability of maximum likelihood estimation. We provide empirical evidence showing that popular generative models collapse under repeated training with synthetic data. We quantify this degradation and show that state-of-the-art GER methods fail to maintain alignment in the latent space. Our findings raise critical concerns about the use of synthetic data in continual learning.
- Abstract(参考訳): モデル学習における合成データの利用が一般的になりつつある。
生成されたデータはトレーニングデータを増大させることができるが、合成データの繰り返しトレーニングは、データセットの汚染による分散ドリフトとパフォーマンスの劣化に関する懸念を提起する。
本稿では,このブートストラッピングプロセスが連続学習のレンズを通して生み出す結果について考察し,生成経験再生(GER)手法との関連性について考察する。
本稿では,合成データが学習目標に有意なバイアスやばらつきをもたらし,最大推定の信頼性を低下させることを示す統計分析を行った。
合成データを用いた繰り返し学習において,一般的な生成モデルが崩壊することを示す実証的証拠を提供する。
この劣化を定量化し、最先端のGER法が潜在空間におけるアライメントを維持できないことを示す。
本研究は,連続学習における合成データの利用に関する重要な懸念を提起するものである。
関連論文リスト
- Escaping Model Collapse via Synthetic Data Verification: Near-term Improvements and Long-term Convergence [31.751930228965467]
モデル崩壊を避けるため, この合成再訓練プロセスの修正方法について検討する。
我々の重要な発見は、外部の合成データ検証器を通じて情報を注入することによって、合成再訓練がモデル崩壊を起こさないことである。
論文 参考訳(メタデータ) (2025-10-18T22:39:39Z) - ForTIFAI: Fending Off Recursive Training Induced Failure for AI Model Collapse [13.096745830570944]
合成データにおけるモデル崩壊を緩和するために,Trncated-Cross-Entropy (TCE)損失関数を導入する。
TCEはトレーニング中に高信頼トークンを選択的に無視することで崩壊を緩和し、マシン生成の可能性があるアーティファクトを効果的にフィルタリングする。
以上の結果から,信頼性に配慮した学習目標が崩壊を著しく遅らせることが示され,合成データ露光下でのモデルロバスト性のための実用的で一般化可能なツールが提供される。
論文 参考訳(メタデータ) (2025-09-10T20:06:51Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Generating World [19.266191284270793]
生成機械学習モデルは、以前のモデルによって生成されたデータを含むWebスケールデータセットで事前訓練される。
先行研究の中には、ウェブが合成データに圧倒されているため、"モデル崩壊"を警告するものもある。
本稿では,3つの生成モデルタスクセットにまたがるデータ(トレーニング・ワークフロー)の3つの使い方について実験を行った。
論文 参考訳(メタデータ) (2024-10-22T05:49:24Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。