論文の概要: Escaping Model Collapse via Synthetic Data Verification: Near-term Improvements and Long-term Convergence
- arxiv url: http://arxiv.org/abs/2510.16657v1
- Date: Sat, 18 Oct 2025 22:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.083369
- Title: Escaping Model Collapse via Synthetic Data Verification: Near-term Improvements and Long-term Convergence
- Title(参考訳): 合成データ検証によるモデル崩壊の回避:短期的改善と長期収束
- Authors: Bingji Yi, Qiyuan Liu, Yuwei Cheng, Haifeng Xu,
- Abstract要約: モデル崩壊を避けるため, この合成再訓練プロセスの修正方法について検討する。
我々の重要な発見は、外部の合成データ検証器を通じて情報を注入することによって、合成再訓練がモデル崩壊を起こさないことである。
- 参考スコア(独自算出の注目度): 31.751930228965467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data has been increasingly used to train frontier generative models. However, recent study raises key concerns that iteratively retraining a generative model on its self-generated synthetic data may keep deteriorating model performance, a phenomenon often coined model collapse. In this paper, we investigate ways to modify this synthetic retraining process to avoid model collapse, and even possibly help reverse the trend from collapse to improvement. Our key finding is that by injecting information through an external synthetic data verifier, whether a human or a better model, synthetic retraining will not cause model collapse. To develop principled understandings of the above insight, we situate our analysis in the foundational linear regression setting, showing that iterative retraining with verified synthetic data can yield near-term improvements but ultimately drives the parameter estimate to the verifier's "knowledge center" in the long run. Our theory hence predicts that, unless the verifier is perfectly reliable, the early gains will plateau and may even reverse. Indeed, these theoretical insights are further confirmed by our experiments on both linear regression as well as Variational Autoencoders (VAEs) trained on MNIST data.
- Abstract(参考訳): 合成データはフロンティア生成モデルの訓練にますます利用されている。
しかし、最近の研究では、自己生成された合成データ上で生成モデルを反復的に再訓練することで、モデル性能が劣化する可能性があるという重要な懸念が提起されている。
本稿では, モデル崩壊を回避し, また, 崩壊から改善に至る傾向の逆転に役立てるために, この合成再訓練プロセスの修正方法を検討する。
我々の重要な発見は、外部の合成データ検証器を通じて情報を注入することによって、人間かより良いモデルかが関係なく、合成再訓練がモデル崩壊を起こさないことである。
以上の知見の原理的理解を深めるために, 基礎線形回帰設定で解析を行い, 検証された合成データによる反復的再学習が短期的な改善をもたらすが, 最終的に, パラメータ推定を長期にわたって検証者の「知識センター」に導くことを示す。
したがって、この理論は、検証者が完全に信頼できない限り、早期の利得は高騰し、さらに逆になるかもしれないと予測する。
実際、これらの理論的な洞察は、線形回帰とMNISTデータに基づいて訓練された変分オートエンコーダ(VAE)の両方の実験によってさらに確認される。
関連論文リスト
- ForTIFAI: Fending Off Recursive Training Induced Failure for AI Models [13.096745830570944]
合成データにおけるモデル崩壊を緩和するために,Trncated-Cross-Entropy (TCE)損失関数を導入する。
TCEはトレーニング中に高信頼トークンを選択的に無視することで崩壊を緩和し、マシン生成の可能性があるアーティファクトを効果的にフィルタリングする。
以上の結果から,信頼性に配慮した学習目標が崩壊を著しく遅らせることが示され,合成データ露光下でのモデルロバスト性のための実用的で一般化可能なツールが提供される。
論文 参考訳(メタデータ) (2025-09-10T20:06:51Z) - A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Beyond Model Collapse: Scaling Up with Synthesized Data Requires Verification [11.6055501181235]
モデル崩壊防止のための合成データに対する検証手法について検討する。
検証器は、たとえ不完全なものであっても、モデル崩壊を防ぐために実際に活用できることが示される。
論文 参考訳(メタデータ) (2024-06-11T17:46:16Z) - How Bad is Training on Synthetic Data? A Statistical Analysis of Language Model Collapse [9.59833542807268]
モデル崩壊は、以前に訓練されたモデルから生成された合成データに基づいて新しいモデルが訓練されたときに起こる。
合成データのみを用いたトレーニングでは,モデル崩壊は回避できないことを示す。
モデル崩壊を回避できる合成データの最大量を推定する。
論文 参考訳(メタデータ) (2024-04-07T22:15:13Z) - Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.73114504515852]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。
生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文 参考訳(メタデータ) (2024-04-01T18:31:24Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。