論文の概要: An Efficient Framework for Crediting Data Contributors of Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.03153v2
- Date: Wed, 22 Jan 2025 18:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:52:29.715597
- Title: An Efficient Framework for Crediting Data Contributors of Diffusion Models
- Title(参考訳): 拡散モデルのデータコントリビュータの信用のための効率的なフレームワーク
- Authors: Chris Lin, Mingyu Lu, Chanwoo Kim, Su-In Lee,
- Abstract要約: 本稿では,Shapley値推定のための推論を効率的に再学習し,再実行する手法を提案する。
CIFARデータセットで訓練されたDDPMの画像品質,CelebA-HQで訓練されたLCMの人口統計学的多様性,そして, (iii) 印象主義後のアートワークで修正された安定拡散モデルLoRAの審美的品質,の3つのユースケースで本手法の有用性を評価した。
- 参考スコア(独自算出の注目度): 13.761241561734547
- License:
- Abstract: As diffusion models are deployed in real-world settings, and their performance is driven by training data, appraising the contribution of data contributors is crucial to creating incentives for sharing quality data and to implementing policies for data compensation. Depending on the use case, model performance corresponds to various global properties of the distribution learned by a diffusion model (e.g., overall aesthetic quality). Hence, here we address the problem of attributing global properties of diffusion models to data contributors. The Shapley value provides a principled approach to valuation by uniquely satisfying game-theoretic axioms of fairness. However, estimating Shapley values for diffusion models is computationally impractical because it requires retraining on many training data subsets corresponding to different contributors and rerunning inference. We introduce a method to efficiently retrain and rerun inference for Shapley value estimation, by leveraging model pruning and fine-tuning. We evaluate the utility of our method with three use cases: (i) image quality for a DDPM trained on a CIFAR dataset, (ii) demographic diversity for an LDM trained on CelebA-HQ, and (iii) aesthetic quality for a Stable Diffusion model LoRA-finetuned on Post-Impressionist artworks. Our results empirically demonstrate that our framework can identify important data contributors across models' global properties, outperforming existing attribution methods for diffusion models.
- Abstract(参考訳): 拡散モデルが現実世界の環境で展開され、そのパフォーマンスはトレーニングデータによって駆動されるため、データコントリビュータの貢献を評価することは、品質データを共有するためのインセンティブを作成し、データ補償のためのポリシーを実装するために不可欠である。
使用例によっては、モデル性能は拡散モデルによって学習された分布の様々な大域的特性に対応している(例えば、全体的な美的品質)。
そこで本研究では,拡散モデルのグローバルな特性をデータコントリビュータにもたらす問題に対処する。
Shapley値は、公正性のゲーム理論の公理を一意に満たすことによって、評価に対する原則化されたアプローチを提供する。
しかし、拡散モデルに対するShapley値の推定は、異なるコントリビュータに対応する多くのトレーニングデータサブセットの再トレーニングと推論の再実行を必要とするため、計算不可能である。
本稿では,モデルプルーニングと微調整を利用して,Shapley値推定のための推論を効率的に再学習し,再実行する手法を提案する。
提案手法の有用性を3つのユースケースで評価する。
i) CIFARデータセットで訓練したDDPMの画像品質
(二)CelebA本社で訓練を受けたLCMの人口多様性
三 印象派美術品に施した安定拡散モデルLORAの審美的品質
実験により,本フレームワークは,拡散モデルに対する既存属性法よりも優れた精度で,モデルのグローバルな特性にまたがる重要なデータコントリビュータを識別できることが実証された。
関連論文リスト
- Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
これらの課題に対処するための影響関数フレームワークを開発する。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Model-Based Diffusion for Trajectory Optimization [8.943418808959494]
データ無しで軌道最適化(TO)問題を解決するために拡散法を用いた最適化手法であるモデルベース拡散(MBD)を導入する。
MBDは外部データを必要としないが、様々な性質のデータと自然に統合して拡散過程を制御できる。
MBDは、最先端の強化学習とサンプリングベースのTOメソッドを上回り、コンタクトリッチなタスクに挑戦する。
論文 参考訳(メタデータ) (2024-05-28T22:14:25Z) - Transfer Learning for Diffusion Models [43.10840361752551]
拡散モデルは高品質な合成サンプルを一貫して生成する。
コレクションコストや関連するリスクのため、現実のアプリケーションでは実用的ではありません。
本稿では,従来の微調整法や正規化法とは異なる新しいアプローチであるTransfer Guided Diffusion Process (TGDP)を紹介する。
論文 参考訳(メタデータ) (2024-05-27T06:48:58Z) - The Journey, Not the Destination: How Data Guides Diffusion Models [75.19694584942623]
大規模なデータセットでトレーニングされた拡散モデルは、顕著な品質と多様性のフォトリアリスティックなイメージを合成することができる。
i)拡散モデルの文脈でデータ属性の形式的概念を提供し、(ii)そのような属性を反実的に検証することを可能にする枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-11T08:39:43Z) - Leveraging Foundation Models to Improve Lightweight Clients in Federated
Learning [16.684749528240587]
Federated Learning(FL)は、世界中に散在するクライアントが機密データを漏らさずにグローバルモデルを共同で学習することを可能にする、分散トレーニングパラダイムである。
FLは、クライアント間での不均一なデータ分散という形で大きな課題に直面しており、パフォーマンスとロバスト性は低下している。
本稿では,軽量クライアントモデルの連合訓練を支援し,推論コストを低く抑えつつ,不均一なデータ設定下での性能を向上させる基礎モデル蒸留について紹介する。
論文 参考訳(メタデータ) (2023-11-14T19:10:56Z) - Intriguing Properties of Data Attribution on Diffusion Models [33.77847454043439]
データ帰属は、望ましいアウトプットをトレーニングデータに戻そうとする。
データ属性は、高直感的または著作権のあるデータを適切に割り当てるためのモジュールになっている。
論文 参考訳(メタデータ) (2023-11-01T13:00:46Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Training Data Attribution for Diffusion Models [1.1733780065300188]
そこで本研究では,アンサンブルを用いて学習データが拡散モデルの出力にどのように影響するかを明らかにする新しい手法を提案する。
我々のアプローチでは、エンコードされたアンサンブル内の個々のモデルは、影響のあるトレーニング例の識別を可能にするために、訓練データ全体の分割を慎重に設計した上で訓練される。
得られたモデルアンサンブルは、トレーニングデータの影響の効率的なアブレーションを可能にし、トレーニングデータがモデル出力に与える影響を評価する。
論文 参考訳(メタデータ) (2023-06-03T18:36:12Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z) - Mind the Trade-off: Debiasing NLU Models without Degrading the
In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。
モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。
提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-01T11:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。