Fugu-MT 論文翻訳(概要): Extracting Training Data from Unconditional Diffusion Models

論文の概要: Extracting Training Data from Unconditional Diffusion Models

arxiv url: http://arxiv.org/abs/2410.02467v5
Date: Thu, 28 Nov 2024 10:54:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.413685
Title: Extracting Training Data from Unconditional Diffusion Models
Title（参考訳）: 非条件拡散モデルからトレーニングデータを抽出する
Authors: Yunhao Chen, Shujie Wang, Difan Zou, Xingjun Ma,
Abstract要約: 拡散確率モデル(DPM)は、生成人工知能(GenAI)の主流モデルとして採用されている。本研究では,非条件のDPMからトレーニングデータを抽出するために,生成したデータに対する時間依存型トレーニングデータ抽出(SIDE)を代理条件として活用する新しいデータ抽出手法を提案する。
参考スコア（独自算出の注目度）: 32.18993348942877
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: As diffusion probabilistic models (DPMs) are being employed as mainstream models for Generative Artificial Intelligence (GenAI), the study of their memorization has attracted growing attention. Existing works in this field aim to establish an understanding of whether or to what extent DPMs learn via memorization. Such an understanding is crucial for identifying potential risks of data leakage and copyright infringement in diffusion models and, more importantly, for trustworthy application of GenAI. Existing works revealed that conditional DPMs are more prone to memorize training data than unconditional DPMs. And most data extraction methods developed so far target conditional DPMs. Although unconditional DPMs are less prone to data extraction, further investigation into these attacks remains essential since they serve as the foundation for conditional models like Stable Diffusion, and exploring these attacks will enhance our understanding of memorization in DPMs. In this work, we propose a novel data extraction method named \textbf{Surrogate condItional Data Extraction (SIDE)} that leverages a time-dependent classifier trained on generated data as surrogate conditions to extract training data from unconditional DPMs. Empirical results demonstrate that it can extract training data in challenging scenarios where previous methods fail, and it is, on average, over 50\% more effective across different scales of the CelebA dataset. Furthermore, we provide a theoretical understanding of memorization in both conditional and unconditional DPMs and why SIDE is effective.
Abstract（参考訳）: 拡散確率モデル(DPM)が生成人工知能(GenAI)の主流モデルとして採用されているため、その記憶の研究が注目されている。この分野での既存の研究は、DPMが記憶を通じてどの程度の程度を学ぶかを理解することを目的としている。このような理解は、拡散モデルにおけるデータ漏洩や著作権侵害の潜在的なリスクを特定し、さらに重要なのは、GenAIの信頼できる応用のために重要である。既存の研究では、条件付きDPMは非条件付きDPMよりもトレーニングデータを記憶しやすいことが判明した。また,データ抽出手法のほとんどを目標条件付きDPMとして開発している。非条件のDPMは、データ抽出の傾向が低いが、安定拡散のような条件付きモデルの基盤として機能し、これらの攻撃を探索することで、DPMにおける記憶の理解が向上するので、これらの攻撃のさらなる調査は依然として不可欠である。本研究では、生成したデータに基づいて訓練された時間依存分類器を代理条件として利用し、無条件DPMからトレーニングデータを抽出する、新しいデータ抽出手法である「textbf{Surrogate condItional Data extract (SIDE)」を提案する。実証的な結果は、以前のメソッドが失敗する困難なシナリオでトレーニングデータを抽出できることを示し、平均すると、CelebAデータセットのさまざまなスケールで50%以上有効である。さらに,条件付きDPMおよび非条件付きDPMにおける記憶の理論的理解と,SIDEが有効である理由について述べる。

関連論文リスト

Improved Diffusion-based Generative Model with Better Adversarial Robustness [65.38540020916432]
拡散確率モデル(DPM)は、生成タスクにおいて大きな成功を収めた。デノナイジングプロセスでは、入力データ分布はトレーニングと推論の段階によって異なる。
論文参考訳（メタデータ） (2025-02-24T12:29:16Z)
Beyond Efficiency: Molecular Data Pruning for Enhanced Generalization [30.738229850748137]
MolPegは、一般化を強化するための分子データプルーニングフレームワークである。これは、事前訓練されたモデルでデータプルーニングを適用する、ソースフリーなデータプルーニングシナリオに焦点を当てている。 4つのダウンストリームタスクで既存のDPメソッドを一貫して上回ります。
論文参考訳（メタデータ） (2024-09-02T09:06:04Z)
Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文参考訳（メタデータ） (2024-06-18T16:20:12Z)
Self-Consistency Training for Density-Functional-Theory Hamiltonian Prediction [74.84850523400873]
ハミルトン予測は自己整合性理論を持ち,自己整合性トレーニングを提案する。これにより、大量のラベルのないデータでモデルをトレーニングできるため、データの不足に対処できる。一連のクエリに対してDFT計算を補正するため、教師付きトレーニングのためのラベルを生成するのにDFTを実行するより効率的である。
論文参考訳（メタデータ） (2024-03-14T16:52:57Z)
Intriguing Properties of Data Attribution on Diffusion Models [33.77847454043439]
データ帰属は、望ましいアウトプットをトレーニングデータに戻そうとする。データ属性は、高直感的または著作権のあるデータを適切に割り当てるためのモジュールになっている。
論文参考訳（メタデータ） (2023-11-01T13:00:46Z)
SCME: A Self-Contrastive Method for Data-free and Query-Limited Model Extraction Attack [18.998300969035885]
モデル抽出は、代替モデル上で逆例を生成することによって、ターゲットモデルを騙す。本稿では,偽データの合成におけるクラス間およびクラス内多様性を考慮した,SCME という新しいデータフリーモデル抽出手法を提案する。
論文参考訳（メタデータ） (2023-10-15T10:41:45Z)
On Memorization in Diffusion Models [46.656797890144105]
より小さなデータセットでは記憶の挙動が生じる傾向があることを示す。我々は、有効モデル記憶(EMM)の観点から、影響因子がこれらの記憶行動に与える影響を定量化する。本研究は,拡散モデル利用者にとって実用的意義を持ち,深部生成モデルの理論研究の手がかりを提供する。
論文参考訳（メタデータ） (2023-10-04T09:04:20Z)
Diffusion Model as Representation Learner [86.09969334071478]
Diffusion Probabilistic Models (DPMs) は、最近、様々な生成タスクにおいて顕著な結果を示した。本稿では,DPMが獲得した知識を認識タスクに活用する新しい知識伝達手法を提案する。
論文参考訳（メタデータ） (2023-08-21T00:38:39Z)
Deep Generative Modeling-based Data Augmentation with Demonstration using the BFBT Benchmark Void Fraction Datasets [3.341975883864341]
本稿では、画像データ生成に広く用いられている深部生成モデル(DGM)の科学的データ拡張への応用について検討する。トレーニングが完了すると、DGMはトレーニングデータに類似した合成データを生成し、データセットのサイズを大幅に拡大するために使用することができる。
論文参考訳（メタデータ） (2023-08-19T22:19:41Z)
Synthetic Health-related Longitudinal Data with Mixed-type Variables Generated using Diffusion Models [2.140861702387444]
本稿では拡散確率モデル(DPM)を用いた電子健康記録のシミュレーション手法を提案する。数値変数,二項変数,カテゴリー変数を含む混合型変数を捕捉する縦型EHRの合成におけるDPMの有効性を示す。
論文参考訳（メタデータ） (2023-03-22T03:15:33Z)
On Calibrating Diffusion Probabilistic Models [78.75538484265292]
拡散確率モデル(DPM)は様々な生成タスクにおいて有望な結果を得た。そこで本研究では,任意の事前学習DPMを校正する簡単な方法を提案する。キャリブレーション法は1回だけ行い, 得られたモデルをサンプリングに繰り返し使用することができる。
論文参考訳（メタデータ） (2023-02-21T14:14:40Z)
DisDiff: Unsupervised Disentanglement of Diffusion Probabilistic Models [42.58375679841317]
拡散確率モデル(DPM)の解離という新たな課題を提案する。この課題は、観測の背後にある固有の因子を自動的に発見し、DPMの勾配場を下位段階の磁場に分解することである。そこで我々は,DPMの枠組みにおいて,不整合表現学習を実現するために,DisDiffという教師なしのアプローチを考案した。
論文参考訳（メタデータ） (2023-01-31T15:58:32Z)
SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。 SSM-DTAフレームワークについて述べる。
論文参考訳（メタデータ） (2022-06-20T14:53:25Z)
Prompting to Distill: Boosting Data-Free Knowledge Distillation via Reinforced Prompt [52.6946016535059]
データフリー知識蒸留(DFKD)は、元のトレーニングデータの依存をなくし、知識蒸留を行う。本稿では,PmptDFD(PromptDFD)と呼ばれるプロンプトベースの手法を提案する。本実験で示すように, 本手法は, 合成品質を大幅に向上し, 蒸留性能を著しく向上させる。
論文参考訳（メタデータ） (2022-05-16T08:56:53Z)
Data-SUITE: Data-centric identification of in-distribution incongruous examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文参考訳（メタデータ） (2022-02-17T18:58:31Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
Incorporating Causal Graphical Prior Knowledge into Predictive Modeling via Simple Data Augmentation [92.96204497841032]
因果グラフ(CG)は、データ分散の背後にあるデータ生成プロセスの知識のコンパクトな表現である。本研究では,条件付き独立性(CI)関係の事前知識を活用可能なモデルに依存しないデータ拡張手法を提案する。本手法は,小データシステムにおける予測精度の向上に有効であることを実験的に示した。
論文参考訳（メタデータ） (2021-02-27T06:13:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。