論文の概要: Diffusion Attribution Score: Evaluating Training Data Influence in Diffusion Model
- arxiv url: http://arxiv.org/abs/2410.18639v2
- Date: Fri, 25 Oct 2024 13:12:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:37:39.833074
- Title: Diffusion Attribution Score: Evaluating Training Data Influence in Diffusion Model
- Title(参考訳): 拡散属性スコア:拡散モデルにおけるトレーニングデータの影響評価
- Authors: Jinxu Lin, Linwei Tao, Minjing Dong, Chang Xu,
- Abstract要約: 拡散モデルに対する既存のデータ帰属法は、典型的にはトレーニングサンプルの寄与を定量化する。
拡散損失の直接的利用は,拡散損失の計算により,そのような貢献を正確に表すことはできない。
本研究の目的は, 予測分布と属性スコアとの直接比較を計測し, トレーニングサンプルの重要性を分析することである。
- 参考スコア(独自算出の注目度): 22.39558434131574
- License:
- Abstract: As diffusion models become increasingly popular, the misuse of copyrighted and private images has emerged as a major concern. One promising solution to mitigate this issue is identifying the contribution of specific training samples in generative models, a process known as data attribution. Existing data attribution methods for diffusion models typically quantify the contribution of a training sample by evaluating the change in diffusion loss when the sample is included or excluded from the training process. However, we argue that the direct usage of diffusion loss cannot represent such a contribution accurately due to the calculation of diffusion loss. Specifically, these approaches measure the divergence between predicted and ground truth distributions, which leads to an indirect comparison between the predicted distributions and cannot represent the variances between model behaviors. To address these issues, we aim to measure the direct comparison between predicted distributions with an attribution score to analyse the training sample importance, which is achieved by Diffusion Attribution Score (DAS). Underpinned by rigorous theoretical analysis, we elucidate the effectiveness of DAS. Additionally, we explore strategies to accelerate DAS calculations, facilitating its application to large-scale diffusion models. Our extensive experiments across various datasets and diffusion models demonstrate that DAS significantly surpasses previous benchmarks in terms of the linear data-modelling score, establishing new state-of-the-art performance.
- Abstract(参考訳): 拡散モデルの普及に伴い、著作権と私的画像の誤用が大きな懸念事項となっている。
この問題を緩和するための有望な解決策の1つは、データ属性として知られるプロセスである生成モデルにおける特定のトレーニングサンプルの寄与を特定することである。
既存の拡散モデルへのデータ帰属法は、通常、トレーニングプロセスからサンプルを含まない場合や除外する場合の拡散損失の変化を評価することにより、トレーニングサンプルの寄与を定量化する。
しかし,拡散損失の直接的利用は,拡散損失の計算により,そのような貢献を正確に表すことはできない。
具体的には、これらの手法は予測された真理分布と基底の真理分布のばらつきを測り、予測された分布とモデル行動のばらつきを間接的に比較する。
これらの課題に対処するために,Diffusion Attribution Score (DAS) によって達成されるトレーニングサンプルの重要度を分析するために,予測分布と属性スコアとの直接比較を計測することを目的とする。
厳密な理論分析により,DASの有効性を解明した。
さらに,DAS計算を高速化し,大規模拡散モデルへの応用を促進する戦略についても検討する。
様々なデータセットおよび拡散モデルにわたる広範な実験により、DASは線形データモデリングスコアにおいて以前のベンチマークを大幅に上回り、新しい最先端性能を確立した。
関連論文リスト
- Constrained Diffusion Models via Dual Training [80.03953599062365]
我々は,要求に応じて所望の分布に基づいて制約付き拡散モデルを開発する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Theoretical Insights for Diffusion Guidance: A Case Study for Gaussian
Mixture Models [59.331993845831946]
拡散モデルは、所望の特性に向けてサンプル生成を操るために、スコア関数にタスク固有の情報を注入することの恩恵を受ける。
本稿では,ガウス混合モデルの文脈における拡散モデルに対する誘導の影響を理解するための最初の理論的研究を提供する。
論文 参考訳(メタデータ) (2024-03-03T23:15:48Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Intriguing Properties of Data Attribution on Diffusion Models [33.77847454043439]
データ帰属は、望ましいアウトプットをトレーニングデータに戻そうとする。
データ属性は、高直感的または著作権のあるデータを適切に割り当てるためのモジュールになっている。
論文 参考訳(メタデータ) (2023-11-01T13:00:46Z) - The Emergence of Reproducibility and Generalizability in Diffusion Models [10.188731323681575]
同じスタートノイズ入力と決定論的サンプリングが与えられた場合、異なる拡散モデルはしばしば驚くほど類似した出力が得られる。
拡散モデルはトレーニングデータサイズの影響を受けやすい分布を学習していることを示す。
この価値ある性質は、条件付き使用、逆問題解決、モデル微調整など、拡散モデルの多くの変種に一般化される。
論文 参考訳(メタデータ) (2023-10-08T19:02:46Z) - Diffusion Models are Minimax Optimal Distribution Estimators [49.47503258639454]
拡散モデリングの近似と一般化能力について、初めて厳密な分析を行った。
実密度関数がベソフ空間に属し、経験値整合損失が適切に最小化されている場合、生成したデータ分布は、ほぼ最小の最適推定値が得られることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:31:55Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。