論文の概要: What happens when generative AI models train recursively on each others' generated outputs?
- arxiv url: http://arxiv.org/abs/2505.21677v1
- Date: Tue, 27 May 2025 18:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.241588
- Title: What happens when generative AI models train recursively on each others' generated outputs?
- Title(参考訳): 生成AIモデルが互いに生成したアウトプットに対して再帰的にトレーニングした場合、どうなるか?
- Authors: Hung Ahn Vu, Galen Reeves, Emily Wenger,
- Abstract要約: データによるインタラクションは、おそらくオリジナルのトレーニングデータに欠落した新しい概念にそれらを公開することでモデルに恩恵をもたらすが、共有タスク上でのパフォーマンスを均質化することもできる。
データによるインタラクションは、おそらくオリジナルのトレーニングデータに欠落した新しい概念にそれらを公開することでモデルに恩恵をもたらすが、共有タスク上でのパフォーマンスを均質化することもできる。
- 参考スコア(独自算出の注目度): 10.634199262199859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The internet is full of AI-generated content while also serving as a common source of training data for generative AI (genAI) models. This duality raises the possibility that future genAI models may be trained on other models' generated outputs. Prior work has studied consequences of models training on their own generated outputs, but limited work has considered what happens if models ingest content produced by other models. Given society's increasing dependence on genAI tools, understanding downstream effects of such data-mediated model interactions is critical. To this end, we provide empirical evidence for how data-mediated interactions might unfold in practice, develop a theoretical model for this interactive training process, and show experimentally possible long-term results of such interactions. We find that data-mediated interactions can benefit models by exposing them to novel concepts perhaps missed in original training data, but also can homogenize their performance on shared tasks.
- Abstract(参考訳): インターネットはAI生成コンテンツで溢れており、生成AI(genAI)モデルのトレーニングデータの共通のソースとしても機能している。
この双対性は、将来のgenAIモデルが他のモデルの出力でトレーニングされる可能性を高める。
以前の研究は、自作のアウトプットでトレーニングされたモデルの結果を研究してきたが、他のモデルが生成したコンテンツを収集した場合に何が起こるかは限定的な研究によって検討されている。
社会のgenAIツールへの依存度が増大していることを考えると、そのようなデータによるモデル相互作用の下流効果を理解することが重要である。
この目的のために、データによるインタラクションが実際にどのように展開されるかを示す実証的な証拠を提供し、このインタラクティブなトレーニングプロセスの理論モデルを開発し、そのようなインタラクションの長期的結果を示す。
データによるインタラクションは、おそらくオリジナルのトレーニングデータに欠落した新しい概念にそれらを公開することでモデルに恩恵をもたらすが、共有タスク上でのパフォーマンスを均質化することもできる。
関連論文リスト
- Unlocking the Potential of Past Research: Using Generative AI to Reconstruct Healthcare Simulation Models [0.0]
本研究では、生成人工知能(AI)を用いたフリー・アンド・オープン・ソース・ソフトウェア(FOSS)を用いた出版モデルを再現する可能性について検討する。
ユーザインタフェースを含む2つのDESモデルの生成,テスト,内部再現に成功した。
報告された結果は1つのモデルで複製されたが、分布に関する情報が不足しているため、もう1つのモデルでは再現されなかった。
論文 参考訳(メタデータ) (2025-03-27T16:10:02Z) - Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Generating World [19.266191284270793]
生成機械学習モデルは、以前のモデルによって生成されたデータを含むWebスケールデータセットで事前訓練される。
先行研究の中には、ウェブが合成データに圧倒されているため、"モデル崩壊"を警告するものもある。
本稿では,3つの生成モデルタスクセットにまたがるデータ(トレーニング・ワークフロー)の3つの使い方について実験を行った。
論文 参考訳(メタデータ) (2024-10-22T05:49:24Z) - Will the Inclusion of Generated Data Amplify Bias Across Generations in Future Image Classification Models? [29.71939692883025]
画像分類タスクにおける生成データの影響について,特にバイアスに着目して検討する。
数百の実験がColorized MNIST、CIFAR-20/100、Hard ImageNetデータセットで実施されている。
本研究は, 実世界の応用において, 合成データの公平性に関する議論が進行中であることを示すものである。
論文 参考訳(メタデータ) (2024-10-14T05:07:06Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。