論文の概要: Self-Consuming Generative Models Go MAD
- arxiv url: http://arxiv.org/abs/2307.01850v1
- Date: Tue, 4 Jul 2023 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 16:10:49.037596
- Title: Self-Consuming Generative Models Go MAD
- Title(参考訳): 自己見積生成モデルがMADに
- Authors: Sina Alemohammad, Josue Casco-Rodriguez, Lorenzo Luzi, Ahmed Imtiaz
Humayun, Hossein Babaei, Daniel LeJeune, Ali Siahkoohi, Richard G. Baraniuk
- Abstract要約: 我々は、合成データを使って画像、テキスト、その他のデータ型の生成AIアルゴリズムを訓練する方法を研究する。
自己食ループの各世代に十分な新鮮な実データがないため、将来の生成モデルは、その品質(精度)や多様性(リコール)が徐々に減少する運命にある。
モデルオートファジー障害 (MAD) とよばれ, 狂牛病に類似している。
- 参考スコア(独自算出の注目度): 21.056900382589266
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Seismic advances in generative AI algorithms for imagery, text, and other
data types has led to the temptation to use synthetic data to train
next-generation models. Repeating this process creates an autophagous
(self-consuming) loop whose properties are poorly understood. We conduct a
thorough analytical and empirical analysis using state-of-the-art generative
image models of three families of autophagous loops that differ in how fixed or
fresh real training data is available through the generations of training and
in whether the samples from previous generation models have been biased to
trade off data quality versus diversity. Our primary conclusion across all
scenarios is that without enough fresh real data in each generation of an
autophagous loop, future generative models are doomed to have their quality
(precision) or diversity (recall) progressively decrease. We term this
condition Model Autophagy Disorder (MAD), making analogy to mad cow disease.
- Abstract(参考訳): 画像、テキスト、その他のデータ型の生成AIアルゴリズムの耐震性向上は、次世代モデルのトレーニングに合成データを使用する誘惑につながった。
このプロセスを繰り返すと、性質が不十分な自己消費ループが生成される。
本研究は,3種類のオートファゴスループの最先端画像モデルを用いて解析的,経験的分析を行い,トレーニングの世代を通しての固定的,新鮮な実トレーニングデータの利用方法や,前世代のモデルのサンプルがデータ品質と多様性のトレードオフに偏っているかどうかについて検討した。
あらゆるシナリオの主な結論は、自己食ループの各世代に十分な新鮮な実データがない場合、将来の生成モデルは、その品質(精度)や多様性(リコール)を徐々に減少させる運命にあるということです。
我々は、この状態モデルオートファジー障害(mad)と呼び、狂牛病と類似している。
関連論文リスト
- Self-Improving Diffusion Models with Synthetic Data [12.597035060380001]
シンセティックデータを用いた自己IM拡散モデル(SIMS)は、拡散モデルのための新しい訓練概念である。
SIMSは自己合成データを使用して生成プロセス中に負のガイダンスを提供する。
MADを使わずに、自己生成合成データに対して反復的に訓練できる、最初の予防的生成AIアルゴリズムである。
論文 参考訳(メタデータ) (2024-08-29T08:12:18Z) - Model Collapse in the Self-Consuming Chain of Diffusion Finetuning: A Novel Perspective from Quantitative Trait Modeling [10.159932782892865]
生成モデルは、出力が実際のデータと区別できないユニークなしきい値に達した。
トレーニングと生成の繰り返しループが発生すると、パフォーマンスの深刻な劣化が観察されている。
本稿では,遺伝子変異に触発された簡便かつ効果的な方法として,再利用可能な拡散微細構造(ReDiFine)を提案する。
論文 参考訳(メタデータ) (2024-07-04T13:41:54Z) - Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文 参考訳(メタデータ) (2024-06-12T21:28:28Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.73114504515852]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。
生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文 参考訳(メタデータ) (2024-04-01T18:31:24Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Self-Correcting Self-Consuming Loops for Generative Model Training [16.59453827606427]
機械学習モデルは、人間と機械が生成したデータの混合に基づいて、ますます訓練されている。
合成データを用いた表現学習の成功にもかかわらず、合成データを用いた生成モデルトレーニングは「自己消費ループ」を創出する
本稿では,理想化された補正関数を導入することで,自己消費生成モデルの訓練を安定化することを目的とする。
論文 参考訳(メタデータ) (2024-02-11T02:34:42Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Improved Autoregressive Modeling with Distribution Smoothing [106.14646411432823]
オートレグレッシブモデルは画像圧縮に優れていますが、そのサンプル品質はしばしば欠けています。
敵対的防御法の成功に触発されて,ランダム化平滑化を自己回帰的生成モデルに取り入れた。
論文 参考訳(メタデータ) (2021-03-28T09:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。