論文の概要: Convergence Dynamics and Stabilization Strategies of Co-Evolving Generative Models
- arxiv url: http://arxiv.org/abs/2503.08117v1
- Date: Tue, 11 Mar 2025 07:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:21.316334
- Title: Convergence Dynamics and Stabilization Strategies of Co-Evolving Generative Models
- Title(参考訳): 共進化生成モデルの収束ダイナミクスと安定化戦略
- Authors: Weiguo Gao, Ming Li,
- Abstract要約: 反復的なフィードバックによって互いのトレーニングを形作る共進化生成モデルについて検討する。
これはソーシャルメディアプラットフォームのようなマルチモーダルAIエコシステムで一般的である。
我々は、現実世界の外部影響によって暗黙的に導入された安定化戦略を分析する。
- 参考スコア(独自算出の注目度): 10.315743300140966
- License:
- Abstract: The increasing prevalence of synthetic data in training loops has raised concerns about model collapse, where generative models degrade when trained on their own outputs. While prior work focuses on this self-consuming process, we study an underexplored yet prevalent phenomenon: co-evolving generative models that shape each other's training through iterative feedback. This is common in multimodal AI ecosystems, such as social media platforms, where text models generate captions that guide image models, and the resulting images influence the future adaptation of the text model. We take a first step by analyzing such a system, modeling the text model as a multinomial distribution and the image model as a conditional multi-dimensional Gaussian distribution. Our analysis uncovers three key results. First, when one model remains fixed, the other collapses: a frozen image model causes the text model to lose diversity, while a frozen text model leads to an exponential contraction of image diversity, though fidelity remains bounded. Second, in fully interactive systems, mutual reinforcement accelerates collapse, with image contraction amplifying text homogenization and vice versa, leading to a Matthew effect where dominant texts sustain higher image diversity while rarer texts collapse faster. Third, we analyze stabilization strategies implicitly introduced by real-world external influences. Random corpus injections for text models and user-content injections for image models prevent collapse while preserving both diversity and fidelity. Our theoretical findings are further validated through experiments.
- Abstract(参考訳): トレーニングループにおける合成データの頻度の増加は、モデル崩壊に対する懸念を引き起こし、生成モデルは、自身の出力でトレーニングすると劣化する。
先行研究は、この自己消費プロセスに焦点をあてる一方で、過度に研究されている現象、すなわち、反復的なフィードバックを通じて互いのトレーニングを形作る生成モデルについて研究している。
これは、ソーシャルメディアプラットフォームのようなマルチモーダルAIエコシステムにおいて一般的であり、テキストモデルが画像モデルをガイドするキャプションを生成し、その結果のイメージがテキストモデルの将来の適応に影響を与える。
このようなシステムを解析し、テキストモデルを多次元分布としてモデル化し、画像モデルを条件付き多次元ガウス分布としてモデル化する。
私たちの分析では3つの重要な結果が明らかになった。
凍結された画像モデルによってテキストモデルが多様性を失う一方、凍結されたテキストモデルは画像の多様性を指数関数的に収縮させるが、忠実性は束縛される。
第二に、完全にインタラクティブなシステムでは、相互強化が崩壊を加速し、画像収縮によってテキストの均質化が増幅される。
第3に、現実世界の外部影響によって暗黙的に導入された安定化戦略を分析する。
テキストモデルのランダムコーパスインジェクションと画像モデルのユーザコンテンツインジェクションは、多様性と忠実さの両方を維持しながら、崩壊を防ぐ。
理論的知見は実験によってさらに検証される。
関連論文リスト
- Dual Diffusion for Unified Image Generation and Understanding [32.7554623473768]
マルチモーダル理解と生成のための大規模かつ完全なエンドツーエンド拡散モデルを提案する。
我々は、画像とテキストの条件付き確率を同時にトレーニングするクロスモーダル最大推定フレームワークを活用する。
我々のモデルは、最近の統合画像理解・生成モデルと比較して、競争性能が向上した。
論文 参考訳(メタデータ) (2024-12-31T05:49:00Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Characterizing Model Collapse in Large Language Models Using Semantic Networks and Next-Token Probability [4.841442157674423]
合成コンテンツがWebに浸透するにつれて、生成的AIモデルはオートファジーなプロセスを経験し、独自の出力を使って微調整される。
これはモデル崩壊と呼ばれる現象につながり、世代を重ねて生成するAIモデルの性能と多様性を低下させる。
近年の研究では、様々な生成AIモデルとデータタイプにまたがるモデル崩壊の出現について検討されている。
論文 参考訳(メタデータ) (2024-10-16T08:02:48Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。
我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文 参考訳(メタデータ) (2024-02-02T12:39:49Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Improved Autoregressive Modeling with Distribution Smoothing [106.14646411432823]
オートレグレッシブモデルは画像圧縮に優れていますが、そのサンプル品質はしばしば欠けています。
敵対的防御法の成功に触発されて,ランダム化平滑化を自己回帰的生成モデルに取り入れた。
論文 参考訳(メタデータ) (2021-03-28T09:21:20Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。