論文の概要: Stabilizing Self-Consuming Diffusion Models with Latent Space Filtering
- arxiv url: http://arxiv.org/abs/2511.12742v1
- Date: Sun, 16 Nov 2025 19:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.511463
- Title: Stabilizing Self-Consuming Diffusion Models with Latent Space Filtering
- Title(参考訳): 潜時空間フィルタを用いた自己消費拡散モデルの安定化
- Authors: Zhongteng Cai, Yaxuan Wang, Yang Liu, Xueru Zhang,
- Abstract要約: 合成データはインターネット上で増殖し、しばしば連続した世代生成モデルを訓練するために再利用される。
過去のトレーニングデータを蓄積したり、新しいリアルデータを注入したりといった、この問題に対処するための一般的な戦略は、計算コストを増大させるか、高価な人的アノテーションを必要とする。
textitLatent Space Filtering (LSF) は、混合データセットからより現実的な合成データをフィルタリングすることで、モデル崩壊を緩和する新しい手法である。
- 参考スコア(独自算出の注目度): 14.376489086750345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As synthetic data proliferates across the Internet, it is often reused to train successive generations of generative models. This creates a ``self-consuming loop" that can lead to training instability or \textit{model collapse}. Common strategies to address the issue -- such as accumulating historical training data or injecting fresh real data -- either increase computational cost or require expensive human annotation. In this paper, we empirically analyze the latent space dynamics of self-consuming diffusion models and observe that the low-dimensional structure of latent representations extracted from synthetic data degrade over generations. Based on this insight, we propose \textit{Latent Space Filtering} (LSF), a novel approach that mitigates model collapse by filtering out less realistic synthetic data from mixed datasets. Theoretically, we present a framework that connects latent space degradation to empirical observations. Experimentally, we show that LSF consistently outperforms existing baselines across multiple real-world datasets, effectively mitigating model collapse without increasing training cost or relying on human annotation.
- Abstract(参考訳): 合成データがインターネット中に普及するにつれて、連続した世代の生成モデルを訓練するためにしばしば再利用される。
これは‘自己消費ループ’を生成し、トレーニング不安定や‘textit{model collapse}’につながる可能性がある。
過去のトレーニングデータを蓄積したり、新しいリアルデータを注入したりといった、この問題に対処するための一般的な戦略は、計算コストを増大させるか、高価な人的アノテーションを必要とする。
本稿では, 自己消費拡散モデルの潜在空間力学を実証的に解析し, 合成データから抽出した潜在表現の低次元構造が世代とともに劣化していくことを観察する。
この知見に基づき、混合データセットからより現実的な合成データをフィルタリングすることで、モデル崩壊を緩和する新しいアプローチである「textit{Latent Space Filtering} (LSF)」を提案する。
理論的には、潜時空間劣化と経験的観測を結びつける枠組みを提案する。
実験により,LSFは複数の実世界のデータセットにまたがる既存のベースラインを一貫して上回り,トレーニングコストの増大や人間のアノテーションに依存することなく,モデル崩壊を効果的に軽減することを示した。
関連論文リスト
- Escaping Model Collapse via Synthetic Data Verification: Near-term Improvements and Long-term Convergence [31.751930228965467]
モデル崩壊を避けるため, この合成再訓練プロセスの修正方法について検討する。
我々の重要な発見は、外部の合成データ検証器を通じて情報を注入することによって、合成再訓練がモデル崩壊を起こさないことである。
論文 参考訳(メタデータ) (2025-10-18T22:39:39Z) - A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Learning by Surprise: Surplexity for Mitigating Model Collapse in Generative AI [1.6545633988217645]
合成コンテンツがWebに浸透するにつれて、生成的AIモデルは自身の出力で再訓練される可能性がある。
これによってモデルが崩壊し、世代間でパフォーマンスと多様性が徐々に失われます。
本稿では,モデルの次点確率分布から直接崩壊を特徴付ける新しい尺度を提案する。
論文 参考訳(メタデータ) (2024-10-16T08:02:48Z) - Self-Improving Diffusion Models with Synthetic Data [12.597035060380001]
シンセティックデータを用いた自己IM拡散モデル(SIMS)は、拡散モデルのための新しい訓練概念である。
SIMSは自己合成データを使用して生成プロセス中に負のガイダンスを提供する。
MADを使わずに、自己生成合成データに対して反復的に訓練できる、最初の予防的生成AIアルゴリズムである。
論文 参考訳(メタデータ) (2024-08-29T08:12:18Z) - Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文 参考訳(メタデータ) (2024-06-12T21:28:28Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。