論文の概要: An Efficient Framework for Crediting Data Contributors of Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.03153v2
- Date: Wed, 22 Jan 2025 18:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:52:29.715597
- Title: An Efficient Framework for Crediting Data Contributors of Diffusion Models
- Title(参考訳): 拡散モデルのデータコントリビュータの信用のための効率的なフレームワーク
- Authors: Chris Lin, Mingyu Lu, Chanwoo Kim, Su-In Lee,
- Abstract要約: 本稿では,Shapley値推定のための推論を効率的に再学習し,再実行する手法を提案する。
CIFARデータセットで訓練されたDDPMの画像品質,CelebA-HQで訓練されたLCMの人口統計学的多様性,そして, (iii) 印象主義後のアートワークで修正された安定拡散モデルLoRAの審美的品質,の3つのユースケースで本手法の有用性を評価した。
- 参考スコア(独自算出の注目度): 13.761241561734547
- License:
- Abstract: As diffusion models are deployed in real-world settings, and their performance is driven by training data, appraising the contribution of data contributors is crucial to creating incentives for sharing quality data and to implementing policies for data compensation. Depending on the use case, model performance corresponds to various global properties of the distribution learned by a diffusion model (e.g., overall aesthetic quality). Hence, here we address the problem of attributing global properties of diffusion models to data contributors. The Shapley value provides a principled approach to valuation by uniquely satisfying game-theoretic axioms of fairness. However, estimating Shapley values for diffusion models is computationally impractical because it requires retraining on many training data subsets corresponding to different contributors and rerunning inference. We introduce a method to efficiently retrain and rerun inference for Shapley value estimation, by leveraging model pruning and fine-tuning. We evaluate the utility of our method with three use cases: (i) image quality for a DDPM trained on a CIFAR dataset, (ii) demographic diversity for an LDM trained on CelebA-HQ, and (iii) aesthetic quality for a Stable Diffusion model LoRA-finetuned on Post-Impressionist artworks. Our results empirically demonstrate that our framework can identify important data contributors across models' global properties, outperforming existing attribution methods for diffusion models.
- Abstract(参考訳): 拡散モデルが現実世界の環境で展開され、そのパフォーマンスはトレーニングデータによって駆動されるため、データコントリビュータの貢献を評価することは、品質データを共有するためのインセンティブを作成し、データ補償のためのポリシーを実装するために不可欠である。
使用例によっては、モデル性能は拡散モデルによって学習された分布の様々な大域的特性に対応している(例えば、全体的な美的品質)。
そこで本研究では,拡散モデルのグローバルな特性をデータコントリビュータにもたらす問題に対処する。
Shapley値は、公正性のゲーム理論の公理を一意に満たすことによって、評価に対する原則化されたアプローチを提供する。
しかし、拡散モデルに対するShapley値の推定は、異なるコントリビュータに対応する多くのトレーニングデータサブセットの再トレーニングと推論の再実行を必要とするため、計算不可能である。
本稿では,モデルプルーニングと微調整を利用して,Shapley値推定のための推論を効率的に再学習し,再実行する手法を提案する。
提案手法の有用性を3つのユースケースで評価する。
i) CIFARデータセットで訓練したDDPMの画像品質
(二)CelebA本社で訓練を受けたLCMの人口多様性
三 印象派美術品に施した安定拡散モデルLORAの審美的品質
実験により,本フレームワークは,拡散モデルに対する既存属性法よりも優れた精度で,モデルのグローバルな特性にまたがる重要なデータコントリビュータを識別できることが実証された。
関連論文リスト
- Balancing Act: Distribution-Guided Debiasing in Diffusion Models [31.38505986239798]
拡散モデル(DM)は、前例のない画像生成能力を持つ強力な生成モデルとして登場した。
DMはトレーニングデータセットに存在するバイアスを反映します。
本稿では、追加データやモデル再学習に頼ることなく、DMをデバイアスする手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T09:53:17Z) - The Journey, Not the Destination: How Data Guides Diffusion Models [75.19694584942623]
大規模なデータセットでトレーニングされた拡散モデルは、顕著な品質と多様性のフォトリアリスティックなイメージを合成することができる。
i)拡散モデルの文脈でデータ属性の形式的概念を提供し、(ii)そのような属性を反実的に検証することを可能にする枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-11T08:39:43Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。
提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-30T20:00:14Z) - Extracting Training Data from Diffusion Models [77.11719063152027]
拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。
生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。
さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-30T18:53:09Z) - Diffusion Art or Digital Forgery? Investigating Data Replication in
Diffusion Models [53.03978584040557]
生成した画像とトレーニングサンプルを比較し、コンテンツが複製されたことを検知する画像検索フレームワークについて検討する。
フレームワークをオックスフォード花、Celeb-A、ImageNet、LAIONなど複数のデータセットでトレーニングされた拡散モデルに適用することにより、トレーニングセットのサイズがコンテンツ複製の速度にどのように影響するかを議論する。
論文 参考訳(メタデータ) (2022-12-07T18:58:02Z) - FedDM: Iterative Distribution Matching for Communication-Efficient
Federated Learning [87.08902493524556]
フェデレートラーニング(FL)は近年、学術や産業から注目を集めている。
我々は,複数の局所的代理関数からグローバルなトレーニング目標を構築するためのFedDMを提案する。
そこで本研究では,各クライアントにデータ集合を構築し,元のデータから得られた損失景観を局所的にマッチングする。
論文 参考訳(メタデータ) (2022-07-20T04:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。