論文の概要: Extracting Training Data from Unconditional Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.12752v1
- Date: Tue, 18 Jun 2024 16:20:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 18:09:06.896043
- Title: Extracting Training Data from Unconditional Diffusion Models
- Title(参考訳): 非条件拡散モデルからトレーニングデータを抽出する
- Authors: Yunhao Chen, Xingjun Ma, Difan Zou, Yu-Gang Jiang,
- Abstract要約: 拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
- 参考スコア(独自算出の注目度): 76.85077961718875
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As diffusion probabilistic models (DPMs) are being employed as mainstream models for generative artificial intelligence (AI), the study of their memorization of the raw training data has attracted growing attention. Existing works in this direction aim to establish an understanding of whether or to what extent DPMs learn by memorization. Such an understanding is crucial for identifying potential risks of data leakage and copyright infringement in diffusion models and, more importantly, for more controllable generation and trustworthy application of Artificial Intelligence Generated Content (AIGC). While previous works have made important observations of when DPMs are prone to memorization, these findings are mostly empirical, and the developed data extraction methods only work for conditional diffusion models. In this work, we aim to establish a theoretical understanding of memorization in DPMs with 1) a memorization metric for theoretical analysis, 2) an analysis of conditional memorization with informative and random labels, and 3) two better evaluation metrics for measuring memorization. Based on the theoretical analysis, we further propose a novel data extraction method called \textbf{Surrogate condItional Data Extraction (SIDE)} that leverages a classifier trained on generated data as a surrogate condition to extract training data directly from unconditional diffusion models. Our empirical results demonstrate that SIDE can extract training data from diffusion models where previous methods fail, and it is on average over 50\% more effective across different scales of the CelebA dataset.
- Abstract(参考訳): 拡散確率モデル(DPM)が生成人工知能(AI)の主流モデルとして採用されているため、生のトレーニングデータの記憶の研究が注目されている。
この方向の既存の研究は、DPMが記憶によってどの程度の程度に学習するかの理解を確立することを目的としている。
このような理解は、拡散モデルにおけるデータ漏洩や著作権侵害の潜在的なリスクを特定し、より制御可能な生成と信頼できるAIGC(Artificial Intelligence Generated Content)の適用のために重要である。
過去の研究では、DPMが暗記の傾向を示す重要な観測がなされてきたが、これらの発見は主に経験的であり、発達したデータ抽出法は条件付き拡散モデルにのみ有効である。
本研究は,DPMにおける記憶の理論的理解を確立することを目的としている。
1) 理論的解析のための記憶基準
2【情報・ランダムラベルによる条件記憶の分析】
3)記憶度を測定するための2つのより良い評価指標。
理論解析に基づき,生成したデータに基づいて訓練された分類器を代用条件として利用し,非条件拡散モデルから直接トレーニングデータを抽出する新しいデータ抽出手法である「textbf{Surrogate condItional Data extract (SIDE)」を提案する。
実験の結果、SIDEは従来の手法が失敗する拡散モデルからトレーニングデータを抽出でき、CelebAデータセットの異なるスケールで平均50%以上有効であることがわかった。
関連論文リスト
- Probing Language Models for Pre-training Data Detection [11.37731401086372]
本稿では,モデルの内部アクティベーションを調べることで,事前学習データ検出のための探索手法を提案する。
我々の手法はシンプルで効果的であり、より信頼性の高い事前学習データ検出につながる。
論文 参考訳(メタデータ) (2024-06-03T13:58:04Z) - Self-Consistency Training for Density-Functional-Theory Hamiltonian Prediction [74.84850523400873]
ハミルトン予測は自己整合性理論を持ち,自己整合性トレーニングを提案する。
これにより、大量のラベルのないデータでモデルをトレーニングできるため、データの不足に対処できる。
一連のクエリに対してDFT計算を補正するため、教師付きトレーニングのためのラベルを生成するのにDFTを実行するより効率的である。
論文 参考訳(メタデータ) (2024-03-14T16:52:57Z) - On Memorization in Diffusion Models [46.656797890144105]
より小さなデータセットでは記憶の挙動が生じる傾向があることを示す。
我々は、有効モデル記憶(EMM)の観点から、影響因子がこれらの記憶行動に与える影響を定量化する。
本研究は,拡散モデル利用者にとって実用的意義を持ち,深部生成モデルの理論研究の手がかりを提供する。
論文 参考訳(メタデータ) (2023-10-04T09:04:20Z) - DiffusionEngine: Diffusion Model is Scalable Data Engine for Object
Detection [41.436817746749384]
Diffusion Modelはオブジェクト検出のためのスケーラブルなデータエンジンである。
DiffusionEngine(DE)は、高品質な検出指向のトレーニングペアを単一のステージで提供する。
論文 参考訳(メタデータ) (2023-09-07T17:55:01Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - Data Contamination: From Memorization to Exploitation [5.997909991352044]
下流タスクにおいて、モデルがどのように汚染されたデータを悪用しているかは明らかではない。
我々は、ウィキペディアの共同コーパスでBERTモデルを事前訓練し、下流データセットをラベル付けし、関連するタスクでそれらを微調整する。
2つのモデルと3つのダウンストリームタスクによる実験では、いくつかのケースでは悪用が存在するが、他のケースでは、汚染されたデータを記憶しているが、悪用しない。
論文 参考訳(メタデータ) (2022-03-15T20:37:16Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。