論文の概要: Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences
- arxiv url: http://arxiv.org/abs/2407.09499v1
- Date: Wed, 12 Jun 2024 21:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 13:38:25.563866
- Title: Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences
- Title(参考訳): キュレートされたデータを用いた自己消費生成モデルによる人選好の最適化
- Authors: Damien Ferbach, Quentin Bertrand, Avishek Joey Bose, Gauthier Gidel,
- Abstract要約: 本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
- 参考スコア(独自算出の注目度): 20.629333587044012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress in generative models has resulted in impressive leaps in generation quality, blurring the lines between synthetic and real data. Web-scale datasets are now prone to the inevitable contamination by synthetic data, directly impacting the training of future generated models. Already, some theoretical results on self-consuming generative models (a.k.a., iterative retraining) have emerged in the literature, showcasing that either model collapse or stability could be possible depending on the fraction of generated data used at each retraining step. However, in practice, synthetic data is often subject to human feedback and curated by users before being used and uploaded online. For instance, many interfaces of popular text-to-image generative models, such as Stable Diffusion or Midjourney, produce several variations of an image for a given query which can eventually be curated by the users. In this paper, we theoretically study the impact of data curation on iterated retraining of generative models and show that it can be seen as an \emph{implicit preference optimization mechanism}. However, unlike standard preference optimization, the generative model does not have access to the reward function or negative samples needed for pairwise comparisons. Moreover, our study doesn't require access to the density function, only to samples. We prove that, if the data is curated according to a reward model, then the expected reward of the iterative retraining procedure is maximized. We further provide theoretical results on the stability of the retraining loop when using a positive fraction of real data at each step. Finally, we conduct illustrative experiments on both synthetic datasets and on CIFAR10 showing that such a procedure amplifies biases of the reward model.
- Abstract(参考訳): 生成モデルの急速な進歩により、生成品質が飛躍的に向上し、合成データと実データの境界線が曖昧になった。
Webスケールのデータセットは、現在、合成データによる避けられない汚染の傾向にあり、将来生成されたモデルのトレーニングに直接影響を与えている。
既に、自己消費生成モデル(つまり反復的再学習)の理論的な結果が文献に現れており、モデル崩壊または安定性は、各再学習ステップで使用されるデータの割合に応じて可能であることを示している。
しかし、実際には、合成データは人からのフィードバックを受け、ユーザーが利用し、オンラインにアップロードする前にキュレーションされることが多い。
例えば、Stable DiffusionやMidjourneyのような一般的なテキストから画像への生成モデルの多くのインターフェースは、あるクエリに対するイメージのバリエーションを生成し、最終的にはユーザがキュレートする。
本稿では,データキュレーションが生成モデルの反復的再学習に与える影響を理論的に検討し,これを<emph{implicit preference optimization} とみなすことができることを示す。
しかし、標準的な選好最適化とは異なり、生成モデルは対比較に必要な報酬関数や負のサンプルにアクセスできない。
さらに,本研究では,サンプルのみに,密度関数へのアクセスは不要である。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
さらに,各ステップにおける実データの正の分数を用いた場合,再学習ループの安定性に関する理論的結果を提供する。
最後に、合成データセットおよびCIFAR10上で、そのような手順が報酬モデルのバイアスを増幅することを示す。
関連論文リスト
- Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.73114504515852]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。
生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文 参考訳(メタデータ) (2024-04-01T18:31:24Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Self-Correcting Self-Consuming Loops for Generative Model Training [16.59453827606427]
機械学習モデルは、人間と機械が生成したデータの混合に基づいて、ますます訓練されている。
合成データを用いた表現学習の成功にもかかわらず、合成データを用いた生成モデルトレーニングは「自己消費ループ」を創出する
本稿では,理想化された補正関数を導入することで,自己消費生成モデルの訓練を安定化することを目的とする。
論文 参考訳(メタデータ) (2024-02-11T02:34:42Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。