論文の概要: What happens when generative AI models train recursively on each others' generated outputs?
- arxiv url: http://arxiv.org/abs/2505.21677v1
- Date: Tue, 27 May 2025 18:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.241588
- Title: What happens when generative AI models train recursively on each others' generated outputs?
- Title(参考訳): 生成AIモデルが互いに生成したアウトプットに対して再帰的にトレーニングした場合、どうなるか?
- Authors: Hung Ahn Vu, Galen Reeves, Emily Wenger,
- Abstract要約: データによるインタラクションは、おそらくオリジナルのトレーニングデータに欠落した新しい概念にそれらを公開することでモデルに恩恵をもたらすが、共有タスク上でのパフォーマンスを均質化することもできる。
データによるインタラクションは、おそらくオリジナルのトレーニングデータに欠落した新しい概念にそれらを公開することでモデルに恩恵をもたらすが、共有タスク上でのパフォーマンスを均質化することもできる。
- 参考スコア(独自算出の注目度): 10.634199262199859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The internet is full of AI-generated content while also serving as a common source of training data for generative AI (genAI) models. This duality raises the possibility that future genAI models may be trained on other models' generated outputs. Prior work has studied consequences of models training on their own generated outputs, but limited work has considered what happens if models ingest content produced by other models. Given society's increasing dependence on genAI tools, understanding downstream effects of such data-mediated model interactions is critical. To this end, we provide empirical evidence for how data-mediated interactions might unfold in practice, develop a theoretical model for this interactive training process, and show experimentally possible long-term results of such interactions. We find that data-mediated interactions can benefit models by exposing them to novel concepts perhaps missed in original training data, but also can homogenize their performance on shared tasks.
- Abstract(参考訳): インターネットはAI生成コンテンツで溢れており、生成AI(genAI)モデルのトレーニングデータの共通のソースとしても機能している。
この双対性は、将来のgenAIモデルが他のモデルの出力でトレーニングされる可能性を高める。
以前の研究は、自作のアウトプットでトレーニングされたモデルの結果を研究してきたが、他のモデルが生成したコンテンツを収集した場合に何が起こるかは限定的な研究によって検討されている。
社会のgenAIツールへの依存度が増大していることを考えると、そのようなデータによるモデル相互作用の下流効果を理解することが重要である。
この目的のために、データによるインタラクションが実際にどのように展開されるかを示す実証的な証拠を提供し、このインタラクティブなトレーニングプロセスの理論モデルを開発し、そのようなインタラクションの長期的結果を示す。
データによるインタラクションは、おそらくオリジナルのトレーニングデータに欠落した新しい概念にそれらを公開することでモデルに恩恵をもたらすが、共有タスク上でのパフォーマンスを均質化することもできる。
関連論文リスト
- Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Generating World [19.266191284270793]
生成機械学習モデルは、以前のモデルによって生成されたデータを含むWebスケールデータセットで事前訓練される。
先行研究の中には、ウェブが合成データに圧倒されているため、"モデル崩壊"を警告するものもある。
本稿では,3つの生成モデルタスクセットにまたがるデータ(トレーニング・ワークフロー)の3つの使い方について実験を行った。
論文 参考訳(メタデータ) (2024-10-22T05:49:24Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。