論文の概要: Self-Consuming Generative Models with Adversarially Curated Data
- arxiv url: http://arxiv.org/abs/2505.09768v1
- Date: Wed, 14 May 2025 19:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.093463
- Title: Self-Consuming Generative Models with Adversarially Curated Data
- Title(参考訳): 逆計算データを用いた自己消費生成モデル
- Authors: Xiukun Wei, Xueru Zhang,
- Abstract要約: 本研究では, 自己消費再学習ループにおいて, ノイズや逆向きにキュレートされたデータを用いて生成モデルがどのように進化するかを考察する。
我々は、プラットフォームが悪質なユーザーを雇い、実際のユーザーの好みからライバルのモデルを誤認識させるような、競合する敵のシナリオに対する攻撃アルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 7.535438563518571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in generative models have made it increasingly difficult to distinguish real data from model-generated synthetic data. Using synthetic data for successive training of future model generations creates "self-consuming loops", which may lead to model collapse or training instability. Furthermore, synthetic data is often subject to human feedback and curated by users based on their preferences. Ferbach et al. (2024) recently showed that when data is curated according to user preferences, the self-consuming retraining loop drives the model to converge toward a distribution that optimizes those preferences. However, in practice, data curation is often noisy or adversarially manipulated. For example, competing platforms may recruit malicious users to adversarially curate data and disrupt rival models. In this paper, we study how generative models evolve under self-consuming retraining loops with noisy and adversarially curated data. We theoretically analyze the impact of such noisy data curation on generative models and identify conditions for the robustness of the retraining process. Building on this analysis, we design attack algorithms for competitive adversarial scenarios, where a platform with a limited budget employs malicious users to misalign a rival's model from actual user preferences. Experiments on both synthetic and real-world datasets demonstrate the effectiveness of the proposed algorithms.
- Abstract(参考訳): 生成モデルの最近の進歩により、モデル生成合成データと実際のデータを区別することがますます困難になっている。
将来のモデル世代を連続的にトレーニングするために合成データを使用することで、「自己消費ループ」が生成され、モデル崩壊やトレーニング不安定につながる可能性がある。
さらに、合成データはユーザーの好みに基づいて人間のフィードバックを受け、キュレートされることが多い。
Ferbach氏ら(2024年)は先日、データがユーザの好みに応じてキュレートされると、自己消費リトレーニングループがモデルをその好みを最適化する分布へと収束させることを示した。
しかし、実際には、データキュレーションは騒々しいか、逆向きに操作されることが多い。
例えば、競合するプラットフォームは悪意のあるユーザーを雇い、データを敵対的にキュレートし、ライバルのモデルをディスラプトする。
本稿では, 自己消費リトレーニングループ下で生成モデルがどのように進化するかを, ノイズと逆向きに計算したデータを用いて検討する。
このようなノイズのあるデータキュレーションが生成モデルに与える影響を理論的に解析し、再学習プロセスの堅牢性に関する条件を同定する。
この分析に基づいて、我々は、限られた予算を持つプラットフォームが悪質なユーザーを雇い、実際のユーザの好みからライバルのモデルを誤認識させるような、競合する敵のシナリオに対する攻撃アルゴリズムを設計する。
合成と実世界の両方のデータセットの実験は、提案アルゴリズムの有効性を実証している。
関連論文リスト
- Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文 参考訳(メタデータ) (2024-06-12T21:28:28Z) - Self-Correcting Self-Consuming Loops for Generative Model Training [16.59453827606427]
機械学習モデルは、人間と機械が生成したデータの混合に基づいて、ますます訓練されている。
合成データを用いた表現学習の成功にもかかわらず、合成データを用いた生成モデルトレーニングは「自己消費ループ」を創出する
本稿では,理想化された補正関数を導入することで,自己消費生成モデルの訓練を安定化することを目的とする。
論文 参考訳(メタデータ) (2024-02-11T02:34:42Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Improving Question Answering Model Robustness with Synthetic Adversarial
Data Generation [41.9785159975426]
最先端の質問応答モデルは、様々な敵の攻撃を受けやすいままであり、人間レベルの言語理解を得るには程遠い。
提案されている1つの方法は動的逆データ収集であり、人間のアノテータがループ内のモデルが失敗する例を作成しようとするものである。
本研究では,合成逆データ生成パイプラインを構成する複数の回答選択,質問生成,フィルタリング手法について検討する。
合成データと人為的データの両方で訓練されたモデルは、合成逆数データで訓練されていないモデルより優れ、対数上での最先端の結果を得る
論文 参考訳(メタデータ) (2021-04-18T02:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。