論文の概要: Extracting Training Data from Unconditional Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.02467v5
- Date: Thu, 28 Nov 2024 10:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:17:44.224229
- Title: Extracting Training Data from Unconditional Diffusion Models
- Title(参考訳): 非条件拡散モデルからトレーニングデータを抽出する
- Authors: Yunhao Chen, Shujie Wang, Difan Zou, Xingjun Ma,
- Abstract要約: 拡散確率モデル(DPM)は、生成人工知能(GenAI)の主流モデルとして採用されている。
本研究では,非条件のDPMからトレーニングデータを抽出するために,生成したデータに対する時間依存型トレーニングデータ抽出(SIDE)を代理条件として活用する新しいデータ抽出手法を提案する。
- 参考スコア(独自算出の注目度): 32.18993348942877
- License:
- Abstract: As diffusion probabilistic models (DPMs) are being employed as mainstream models for Generative Artificial Intelligence (GenAI), the study of their memorization has attracted growing attention. Existing works in this field aim to establish an understanding of whether or to what extent DPMs learn via memorization. Such an understanding is crucial for identifying potential risks of data leakage and copyright infringement in diffusion models and, more importantly, for trustworthy application of GenAI. Existing works revealed that conditional DPMs are more prone to memorize training data than unconditional DPMs. And most data extraction methods developed so far target conditional DPMs. Although unconditional DPMs are less prone to data extraction, further investigation into these attacks remains essential since they serve as the foundation for conditional models like Stable Diffusion, and exploring these attacks will enhance our understanding of memorization in DPMs. In this work, we propose a novel data extraction method named \textbf{Surrogate condItional Data Extraction (SIDE)} that leverages a time-dependent classifier trained on generated data as surrogate conditions to extract training data from unconditional DPMs. Empirical results demonstrate that it can extract training data in challenging scenarios where previous methods fail, and it is, on average, over 50\% more effective across different scales of the CelebA dataset. Furthermore, we provide a theoretical understanding of memorization in both conditional and unconditional DPMs and why SIDE is effective.
- Abstract(参考訳): 拡散確率モデル(DPM)が生成人工知能(GenAI)の主流モデルとして採用されているため、その記憶の研究が注目されている。
この分野での既存の研究は、DPMが記憶を通じてどの程度の程度を学ぶかを理解することを目的としている。
このような理解は、拡散モデルにおけるデータ漏洩や著作権侵害の潜在的なリスクを特定し、さらに重要なのは、GenAIの信頼できる応用のために重要である。
既存の研究では、条件付きDPMは非条件付きDPMよりもトレーニングデータを記憶しやすいことが判明した。
また,データ抽出手法のほとんどを目標条件付きDPMとして開発している。
非条件のDPMは、データ抽出の傾向が低いが、安定拡散のような条件付きモデルの基盤として機能し、これらの攻撃を探索することで、DPMにおける記憶の理解が向上するので、これらの攻撃のさらなる調査は依然として不可欠である。
本研究では、生成したデータに基づいて訓練された時間依存分類器を代理条件として利用し、無条件DPMからトレーニングデータを抽出する、新しいデータ抽出手法である「textbf{Surrogate condItional Data extract (SIDE)」を提案する。
実証的な結果は、以前のメソッドが失敗する困難なシナリオでトレーニングデータを抽出できることを示し、平均すると、CelebAデータセットのさまざまなスケールで50%以上有効である。
さらに,条件付きDPMおよび非条件付きDPMにおける記憶の理論的理解と,SIDEが有効である理由について述べる。
関連論文リスト
- Beyond Efficiency: Molecular Data Pruning for Enhanced Generalization [30.738229850748137]
MolPegは、一般化を強化するための分子データプルーニングフレームワークである。
これは、事前訓練されたモデルでデータプルーニングを適用する、ソースフリーなデータプルーニングシナリオに焦点を当てている。
4つのダウンストリームタスクで既存のDPメソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2024-09-02T09:06:04Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - Diffusion Model as Representation Learner [86.09969334071478]
Diffusion Probabilistic Models (DPMs) は、最近、様々な生成タスクにおいて顕著な結果を示した。
本稿では,DPMが獲得した知識を認識タスクに活用する新しい知識伝達手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T00:38:39Z) - Synthetic Health-related Longitudinal Data with Mixed-type Variables
Generated using Diffusion Models [2.140861702387444]
本稿では拡散確率モデル(DPM)を用いた電子健康記録のシミュレーション手法を提案する。
数値変数,二項変数,カテゴリー変数を含む混合型変数を捕捉する縦型EHRの合成におけるDPMの有効性を示す。
論文 参考訳(メタデータ) (2023-03-22T03:15:33Z) - On Calibrating Diffusion Probabilistic Models [78.75538484265292]
拡散確率モデル(DPM)は様々な生成タスクにおいて有望な結果を得た。
そこで本研究では,任意の事前学習DPMを校正する簡単な方法を提案する。
キャリブレーション法は1回だけ行い, 得られたモデルをサンプリングに繰り返し使用することができる。
論文 参考訳(メタデータ) (2023-02-21T14:14:40Z) - DisDiff: Unsupervised Disentanglement of Diffusion Probabilistic Models [42.58375679841317]
拡散確率モデル(DPM)の解離という新たな課題を提案する。
この課題は、観測の背後にある固有の因子を自動的に発見し、DPMの勾配場を下位段階の磁場に分解することである。
そこで我々は,DPMの枠組みにおいて,不整合表現学習を実現するために,DisDiffという教師なしのアプローチを考案した。
論文 参考訳(メタデータ) (2023-01-31T15:58:32Z) - SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity
Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。
湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。
既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。
SSM-DTAフレームワークについて述べる。
論文 参考訳(メタデータ) (2022-06-20T14:53:25Z) - Prompting to Distill: Boosting Data-Free Knowledge Distillation via
Reinforced Prompt [52.6946016535059]
データフリー知識蒸留(DFKD)は、元のトレーニングデータの依存をなくし、知識蒸留を行う。
本稿では,PmptDFD(PromptDFD)と呼ばれるプロンプトベースの手法を提案する。
本実験で示すように, 本手法は, 合成品質を大幅に向上し, 蒸留性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-16T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。