論文の概要: Towards a Theoretical Understanding of Memorization in Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.02467v3
- Date: Sun, 13 Oct 2024 16:51:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 03:11:05.515449
- Title: Towards a Theoretical Understanding of Memorization in Diffusion Models
- Title(参考訳): 拡散モデルにおける記憶の理論的理解に向けて
- Authors: Yunhao Chen, Xingjun Ma, Difan Zou, Yu-Gang Jiang,
- Abstract要約: 拡散確率モデル(DPM)は、生成人工知能(GenAI)の主流モデルとして採用されている。
モデル収束を前提とした条件付きおよび非条件付きDPMにおける記憶の理論的理解を提供する。
本研究では、生成されたデータに基づいて訓練された時間依存型分類器を代理条件として利用し、無条件DPMからトレーニングデータを抽出する、textbfSurrogate condItional Data extract (SIDE) という新しいデータ抽出手法を提案する。
- 参考スコア(独自算出の注目度): 76.85077961718875
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As diffusion probabilistic models (DPMs) are being employed as mainstream models for Generative Artificial Intelligence (GenAI), the study of their memorization of training data has attracted growing attention. Existing works in this direction aim to establish an understanding of whether or to what extent DPMs learn via memorization. Such an understanding is crucial for identifying potential risks of data leakage and copyright infringement in diffusion models and, more importantly, for trustworthy application of GenAI. Existing works revealed that conditional DPMs are more prone to training data memorization than unconditional DPMs, and the motivated data extraction methods are mostly for conditional DPMs. However, these understandings are primarily empirical, and extracting training data from unconditional models has been found to be extremely challenging. In this work, we provide a theoretical understanding of memorization in both conditional and unconditional DPMs under the assumption of model convergence. Our theoretical analysis indicates that extracting data from unconditional models can also be effective by constructing a proper surrogate condition. Based on this result, we propose a novel data extraction method named \textbf{Surrogate condItional Data Extraction (SIDE)} that leverages a time-dependent classifier trained on the generated data as a surrogate condition to extract training data from unconditional DPMs. Empirical results demonstrate that our SIDE can extract training data in challenging scenarios where previous methods fail, and it is, on average, over 50\% more effective across different scales of the CelebA dataset.
- Abstract(参考訳): 拡散確率モデル(DPM)が生成人工知能(GenAI)の主流モデルとして採用されているため、トレーニングデータの記憶の研究が注目されている。
この方向の既存の研究は、DPMが記憶を通じてどの程度の程度を学ぶかを理解することを目的としている。
このような理解は、拡散モデルにおけるデータ漏洩や著作権侵害の潜在的なリスクを特定し、さらに重要なのは、GenAIの信頼できる応用のために重要である。
既存の研究によると、条件付きDPMは非条件付きDPMよりもデータ記憶の訓練に適しており、モチベーション付きデータ抽出法は主に条件付きDPMである。
しかし、これらの理解は主に経験的であり、無条件モデルからトレーニングデータを抽出することは極めて困難であることが判明した。
本研究では、モデル収束の仮定の下で、条件付きおよび非条件付きDPMの記憶に関する理論的理解を提供する。
理論解析により,無条件モデルからデータを抽出することは,適切な代理条件を構築することでも有効であることが示唆された。
この結果に基づき、生成したデータに基づいて訓練された時間依存分類器を代理条件として利用し、無条件のDPMからトレーニングデータを抽出する新しいデータ抽出手法である「textbf{Surrogate condItional Data extract (SIDE)」を提案する。
実証的な結果から、SIDEは以前の手法が失敗し、平均してCelebAデータセットのさまざまなスケールで50%以上有効であるような、困難なシナリオでトレーニングデータを抽出できることを示した。
関連論文リスト
- Beyond Efficiency: Molecular Data Pruning for Enhanced Generalization [30.738229850748137]
MolPegは、一般化を強化するための分子データプルーニングフレームワークである。
これは、事前訓練されたモデルでデータプルーニングを適用する、ソースフリーなデータプルーニングシナリオに焦点を当てている。
4つのダウンストリームタスクで既存のDPメソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2024-09-02T09:06:04Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - Diffusion Model as Representation Learner [86.09969334071478]
Diffusion Probabilistic Models (DPMs) は、最近、様々な生成タスクにおいて顕著な結果を示した。
本稿では,DPMが獲得した知識を認識タスクに活用する新しい知識伝達手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T00:38:39Z) - Synthetic Health-related Longitudinal Data with Mixed-type Variables
Generated using Diffusion Models [2.140861702387444]
本稿では拡散確率モデル(DPM)を用いた電子健康記録のシミュレーション手法を提案する。
数値変数,二項変数,カテゴリー変数を含む混合型変数を捕捉する縦型EHRの合成におけるDPMの有効性を示す。
論文 参考訳(メタデータ) (2023-03-22T03:15:33Z) - On Calibrating Diffusion Probabilistic Models [78.75538484265292]
拡散確率モデル(DPM)は様々な生成タスクにおいて有望な結果を得た。
そこで本研究では,任意の事前学習DPMを校正する簡単な方法を提案する。
キャリブレーション法は1回だけ行い, 得られたモデルをサンプリングに繰り返し使用することができる。
論文 参考訳(メタデータ) (2023-02-21T14:14:40Z) - DisDiff: Unsupervised Disentanglement of Diffusion Probabilistic Models [42.58375679841317]
拡散確率モデル(DPM)の解離という新たな課題を提案する。
この課題は、観測の背後にある固有の因子を自動的に発見し、DPMの勾配場を下位段階の磁場に分解することである。
そこで我々は,DPMの枠組みにおいて,不整合表現学習を実現するために,DisDiffという教師なしのアプローチを考案した。
論文 参考訳(メタデータ) (2023-01-31T15:58:32Z) - SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity
Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。
湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。
既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。
SSM-DTAフレームワークについて述べる。
論文 参考訳(メタデータ) (2022-06-20T14:53:25Z) - Prompting to Distill: Boosting Data-Free Knowledge Distillation via
Reinforced Prompt [52.6946016535059]
データフリー知識蒸留(DFKD)は、元のトレーニングデータの依存をなくし、知識蒸留を行う。
本稿では,PmptDFD(PromptDFD)と呼ばれるプロンプトベースの手法を提案する。
本実験で示すように, 本手法は, 合成品質を大幅に向上し, 蒸留性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-16T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。