論文の概要: Can Generative Artificial Intelligence Survive Data Contamination? Theoretical Guarantees under Contaminated Recursive Training
- arxiv url: http://arxiv.org/abs/2602.16065v1
- Date: Tue, 17 Feb 2026 22:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.458862
- Title: Can Generative Artificial Intelligence Survive Data Contamination? Theoretical Guarantees under Contaminated Recursive Training
- Title(参考訳): 生成的人工知能がデータ汚染を救えるか : 再帰的訓練による理論的保証
- Authors: Kevin Wang, Hongqian Niu, Didong Li,
- Abstract要約: 生成人工知能(AI)は、科学、産業、社会にまたがる変革的な力となっている。
これらのシステムが普及するにつれて、Webデータは、このAIが生成する素材とますます干渉するようになる。
生成モデルは定期的に更新されるので、後続のモデルは必然的に、以前のバージョンから生成された人間生成データとAI生成データの混合に基づいてトレーニングされる。
- 参考スコア(独自算出の注目度): 11.253812961752958
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative Artificial Intelligence (AI), such as large language models (LLMs), has become a transformative force across science, industry, and society. As these systems grow in popularity, web data becomes increasingly interwoven with this AI-generated material and it is increasingly difficult to separate them from naturally generated content. As generative models are updated regularly, later models will inevitably be trained on mixtures of human-generated data and AI-generated data from earlier versions, creating a recursive training process with data contamination. Existing theoretical work has examined only highly simplified settings, where both the real data and the generative model are discrete or Gaussian, where it has been shown that such recursive training leads to model collapse. However, real data distributions are far more complex, and modern generative models are far more flexible than Gaussian and linear mechanisms. To fill this gap, we study recursive training in a general framework with minimal assumptions on the real data distribution and allow the underlying generative model to be a general universal approximator. In this framework, we show that contaminated recursive training still converges, with a convergence rate equal to the minimum of the baseline model's convergence rate and the fraction of real data used in each iteration. To the best of our knowledge, this is the first (positive) theoretical result on recursive training without distributional assumptions on the data. We further extend the analysis to settings where sampling bias is present in data collection and support all theoretical results with empirical studies.
- Abstract(参考訳): 大規模言語モデル(LLM)のような生成人工知能(AI)は、科学、産業、社会の変革的な力となっている。
これらのシステムが普及するにつれて、Webデータは、このAI生成材料とますます絡み合うようになり、自然に生成されたコンテンツからそれらを切り離すことがますます困難になっている。
生成モデルが定期的に更新されるにつれて、後続のモデルは必然的に、以前のバージョンの人間生成データとAI生成データの混合に基づいてトレーニングされ、データ汚染を伴う再帰的なトレーニングプロセスが作成される。
既存の理論的研究は、実際のデータと生成モデルの両方が離散的あるいはガウス的であり、そのような再帰的な訓練がモデル崩壊につながることを示す、非常に単純化された設定のみを検証している。
しかし、実際のデータ分布ははるかに複雑であり、現代の生成モデルはガウス的や線形メカニズムよりもはるかに柔軟である。
このギャップを埋めるために、実データ分布の最小限の仮定で一般的なフレームワークで再帰的トレーニングを行い、基礎となる生成モデルを汎用近似器として利用できるようにした。
この枠組みでは, 汚染された再帰的トレーニングは, ベースラインモデルの収束率の最小値と各イテレーションで使用される実データの分数に等しい収束率で, 依然として収束していることを示す。
我々の知る限りでは、これはデータに分布的な仮定を伴わない再帰的トレーニングにおける最初の(肯定的な)理論結果である。
さらに、データ収集にサンプリングバイアスが存在するような設定まで分析を拡張し、実験的な研究ですべての理論的結果をサポートする。
関連論文リスト
- Learning by Surprise: Surplexity for Mitigating Model Collapse in Generative AI [1.6545633988217645]
合成コンテンツがWebに浸透するにつれて、生成的AIモデルは自身の出力で再訓練される可能性がある。
これによってモデルが崩壊し、世代間でパフォーマンスと多様性が徐々に失われます。
本稿では,モデルの次点確率分布から直接崩壊を特徴付ける新しい尺度を提案する。
論文 参考訳(メタデータ) (2024-10-16T08:02:48Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。