Fugu-MT 論文翻訳(概要): Towards a Theoretical Understanding of Memorization in Diffusion Models

論文の概要: Towards a Theoretical Understanding of Memorization in Diffusion Models

arxiv url: http://arxiv.org/abs/2410.02467v4
Date: Sun, 13 Oct 2024 16:51:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 03:11:05.512138
Title: Towards a Theoretical Understanding of Memorization in Diffusion Models
Title（参考訳）: 拡散モデルにおける記憶の理論的理解に向けて
Authors: Yunhao Chen, Xingjun Ma, Difan Zou, Yu-Gang Jiang,
Abstract要約: 拡散確率モデル(DPM)は、生成人工知能(GenAI)の主流モデルとして採用されている。モデル収束を前提とした条件付きおよび非条件付きDPMにおける記憶の理論的理解を提供する。本研究では、生成されたデータに基づいて訓練された時間依存型分類器を代理条件として利用し、無条件DPMからトレーニングデータを抽出する、textbfSurrogate condItional Data extract (SIDE) という新しいデータ抽出手法を提案する。
参考スコア（独自算出の注目度）: 76.85077961718875
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: As diffusion probabilistic models (DPMs) are being employed as mainstream models for Generative Artificial Intelligence (GenAI), the study of their memorization of training data has attracted growing attention. Existing works in this direction aim to establish an understanding of whether or to what extent DPMs learn via memorization. Such an understanding is crucial for identifying potential risks of data leakage and copyright infringement in diffusion models and, more importantly, for trustworthy application of GenAI. Existing works revealed that conditional DPMs are more prone to training data memorization than unconditional DPMs, and the motivated data extraction methods are mostly for conditional DPMs. However, these understandings are primarily empirical, and extracting training data from unconditional models has been found to be extremely challenging. In this work, we provide a theoretical understanding of memorization in both conditional and unconditional DPMs under the assumption of model convergence. Our theoretical analysis indicates that extracting data from unconditional models can also be effective by constructing a proper surrogate condition. Based on this result, we propose a novel data extraction method named \textbf{Surrogate condItional Data Extraction (SIDE)} that leverages a time-dependent classifier trained on the generated data as a surrogate condition to extract training data from unconditional DPMs. Empirical results demonstrate that our SIDE can extract training data in challenging scenarios where previous methods fail, and it is, on average, over 50\% more effective across different scales of the CelebA dataset.
Abstract（参考訳）: 拡散確率モデル(DPM)が生成人工知能(GenAI)の主流モデルとして採用されているため、トレーニングデータの記憶の研究が注目されている。この方向の既存の研究は、DPMが記憶を通じてどの程度の程度を学ぶかを理解することを目的としている。このような理解は、拡散モデルにおけるデータ漏洩や著作権侵害の潜在的なリスクを特定し、さらに重要なのは、GenAIの信頼できる応用のために重要である。既存の研究によると、条件付きDPMは非条件付きDPMよりもデータ記憶の訓練に適しており、モチベーション付きデータ抽出法は主に条件付きDPMである。しかし、これらの理解は主に経験的であり、無条件モデルからトレーニングデータを抽出することは極めて困難であることが判明した。本研究では、モデル収束の仮定の下で、条件付きおよび非条件付きDPMの記憶に関する理論的理解を提供する。理論解析により,無条件モデルからデータを抽出することは,適切な代理条件を構築することでも有効であることが示唆された。この結果に基づき、生成したデータに基づいて訓練された時間依存分類器を代理条件として利用し、無条件のDPMからトレーニングデータを抽出する新しいデータ抽出手法である「textbf{Surrogate condItional Data extract (SIDE)」を提案する。実証的な結果から、SIDEは以前の手法が失敗し、平均してCelebAデータセットのさまざまなスケールで50%以上有効であるような、困難なシナリオでトレーニングデータを抽出できることを示した。

関連論文リスト

MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。 OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文参考訳（メタデータ） (2025-06-03T01:37:09Z)
Variance-Based Defense Against Blended Backdoor Attacks [0.0]
バックドア攻撃は、AIモデルをターゲットにした微妙ながら効果的なサイバー攻撃のクラスである。本稿では,与えられたデータセット上でモデルをトレーニングし,有毒なクラスを検出し,攻撃トリガの重要部分を抽出する新しい防御手法を提案する。
論文参考訳（メタデータ） (2025-06-02T09:01:35Z)
No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。 EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文参考訳（メタデータ） (2025-05-12T06:19:59Z)
Improved Diffusion-based Generative Model with Better Adversarial Robustness [65.38540020916432]
拡散確率モデル(DPM)は、生成タスクにおいて大きな成功を収めた。デノナイジングプロセスでは、入力データ分布はトレーニングと推論の段階によって異なる。
論文参考訳（メタデータ） (2025-02-24T12:29:16Z)
Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-26T15:04:04Z)
Beyond Efficiency: Molecular Data Pruning for Enhanced Generalization [30.738229850748137]
MolPegは、一般化を強化するための分子データプルーニングフレームワークである。これは、事前訓練されたモデルでデータプルーニングを適用する、ソースフリーなデータプルーニングシナリオに焦点を当てている。 4つのダウンストリームタスクで既存のDPメソッドを一貫して上回ります。
論文参考訳（メタデータ） (2024-09-02T09:06:04Z)
Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文参考訳（メタデータ） (2024-06-18T16:20:12Z)
Self-Consistency Training for Density-Functional-Theory Hamiltonian Prediction [74.84850523400873]
ハミルトン予測は自己整合性理論を持ち,自己整合性トレーニングを提案する。これにより、大量のラベルのないデータでモデルをトレーニングできるため、データの不足に対処できる。一連のクエリに対してDFT計算を補正するため、教師付きトレーニングのためのラベルを生成するのにDFTを実行するより効率的である。
論文参考訳（メタデータ） (2024-03-14T16:52:57Z)
Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文参考訳（メタデータ） (2023-12-18T05:42:31Z)
Intriguing Properties of Data Attribution on Diffusion Models [33.77847454043439]
データ帰属は、望ましいアウトプットをトレーニングデータに戻そうとする。データ属性は、高直感的または著作権のあるデータを適切に割り当てるためのモジュールになっている。
論文参考訳（メタデータ） (2023-11-01T13:00:46Z)
SCME: A Self-Contrastive Method for Data-free and Query-Limited Model Extraction Attack [18.998300969035885]
モデル抽出は、代替モデル上で逆例を生成することによって、ターゲットモデルを騙す。本稿では,偽データの合成におけるクラス間およびクラス内多様性を考慮した,SCME という新しいデータフリーモデル抽出手法を提案する。
論文参考訳（メタデータ） (2023-10-15T10:41:45Z)
On Memorization in Diffusion Models [46.656797890144105]
より小さなデータセットでは記憶の挙動が生じる傾向があることを示す。我々は、有効モデル記憶(EMM)の観点から、影響因子がこれらの記憶行動に与える影響を定量化する。本研究は,拡散モデル利用者にとって実用的意義を持ち,深部生成モデルの理論研究の手がかりを提供する。
論文参考訳（メタデータ） (2023-10-04T09:04:20Z)
Diffusion Model as Representation Learner [86.09969334071478]
Diffusion Probabilistic Models (DPMs) は、最近、様々な生成タスクにおいて顕著な結果を示した。本稿では,DPMが獲得した知識を認識タスクに活用する新しい知識伝達手法を提案する。
論文参考訳（メタデータ） (2023-08-21T00:38:39Z)
Deep Generative Modeling-based Data Augmentation with Demonstration using the BFBT Benchmark Void Fraction Datasets [3.341975883864341]
本稿では、画像データ生成に広く用いられている深部生成モデル(DGM)の科学的データ拡張への応用について検討する。トレーニングが完了すると、DGMはトレーニングデータに類似した合成データを生成し、データセットのサイズを大幅に拡大するために使用することができる。
論文参考訳（メタデータ） (2023-08-19T22:19:41Z)
Synthetic Health-related Longitudinal Data with Mixed-type Variables Generated using Diffusion Models [2.140861702387444]
本稿では拡散確率モデル(DPM)を用いた電子健康記録のシミュレーション手法を提案する。数値変数,二項変数,カテゴリー変数を含む混合型変数を捕捉する縦型EHRの合成におけるDPMの有効性を示す。
論文参考訳（メタデータ） (2023-03-22T03:15:33Z)
On Calibrating Diffusion Probabilistic Models [78.75538484265292]
拡散確率モデル(DPM)は様々な生成タスクにおいて有望な結果を得た。そこで本研究では,任意の事前学習DPMを校正する簡単な方法を提案する。キャリブレーション法は1回だけ行い, 得られたモデルをサンプリングに繰り返し使用することができる。
論文参考訳（メタデータ） (2023-02-21T14:14:40Z)
DisDiff: Unsupervised Disentanglement of Diffusion Probabilistic Models [42.58375679841317]
拡散確率モデル(DPM)の解離という新たな課題を提案する。この課題は、観測の背後にある固有の因子を自動的に発見し、DPMの勾配場を下位段階の磁場に分解することである。そこで我々は,DPMの枠組みにおいて,不整合表現学習を実現するために,DisDiffという教師なしのアプローチを考案した。
論文参考訳（メタデータ） (2023-01-31T15:58:32Z)
Cluster-level pseudo-labelling for source-free cross-domain facial expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-10-11T08:24:50Z)
CausalAgents: A Robustness Benchmark for Motion Forecasting using Causal Relationships [8.679073301435265]
既存のデータに摂動を適用することにより、モデルロバスト性の評価と改善のための新しいベンチマークを構築する。我々はこれらのラベルを使用して、現場から非因果的エージェントを削除することでデータを摂動する。非因果摂動下では, minADE の相対的な変化は, 原型と比較して25$-$38%である。
論文参考訳（メタデータ） (2022-07-07T21:28:23Z)
SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。 SSM-DTAフレームワークについて述べる。
論文参考訳（メタデータ） (2022-06-20T14:53:25Z)
Prompting to Distill: Boosting Data-Free Knowledge Distillation via Reinforced Prompt [52.6946016535059]
データフリー知識蒸留(DFKD)は、元のトレーニングデータの依存をなくし、知識蒸留を行う。本稿では,PmptDFD(PromptDFD)と呼ばれるプロンプトベースの手法を提案する。本実験で示すように, 本手法は, 合成品質を大幅に向上し, 蒸留性能を著しく向上させる。
論文参考訳（メタデータ） (2022-05-16T08:56:53Z)
Data-SUITE: Data-centric identification of in-distribution incongruous examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文参考訳（メタデータ） (2022-02-17T18:58:31Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
Incorporating Causal Graphical Prior Knowledge into Predictive Modeling via Simple Data Augmentation [92.96204497841032]
因果グラフ(CG)は、データ分散の背後にあるデータ生成プロセスの知識のコンパクトな表現である。本研究では,条件付き独立性(CI)関係の事前知識を活用可能なモデルに依存しないデータ拡張手法を提案する。本手法は,小データシステムにおける予測精度の向上に有効であることを実験的に示した。
論文参考訳（メタデータ） (2021-02-27T06:13:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。