論文の概要: GUDA: Counterfactual Group-wise Training Data Attribution for Diffusion Models via Unlearning
- arxiv url: http://arxiv.org/abs/2601.22651v1
- Date: Fri, 30 Jan 2026 07:10:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.290767
- Title: GUDA: Counterfactual Group-wise Training Data Attribution for Diffusion Models via Unlearning
- Title(参考訳): GUDA:非学習による拡散モデルに対する対実的グループワイドトレーニングデータ属性
- Authors: Naoki Murata, Yuhta Takida, Chieh-Hsin Lai, Toshimitsu Uesaka, Bac Nguyen, Stefano Ermon, Yuki Mitsufuji,
- Abstract要約: モデルがトレーニングを欠席した場合、モデルが生成したサンプルの変化に対してどのように振る舞うか?
拡散モデルに対してGUDA(Group Unlearning-based Data Attribution)を提案する。
- 参考スコア(独自算出の注目度): 83.56510119503267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training-data attribution for vision generative models aims to identify which training data influenced a given output. While most methods score individual examples, practitioners often need group-level answers (e.g., artistic styles or object classes). Group-wise attribution is counterfactual: how would a model's behavior on a generated sample change if a group were absent from training? A natural realization of this counterfactual is Leave-One-Group-Out (LOGO) retraining, which retrains the model with each group removed; however, it becomes computationally prohibitive as the number of groups grows. We propose GUDA (Group Unlearning-based Data Attribution) for diffusion models, which approximates each counterfactual model by applying machine unlearning to a shared full-data model instead of training from scratch. GUDA quantifies group influence using differences in a likelihood-based scoring rule (ELBO) between the full model and each unlearned counterfactual. Experiments on CIFAR-10 and artistic style attribution with Stable Diffusion show that GUDA identifies primary contributing groups more reliably than semantic similarity, gradient-based attribution, and instance-level unlearning approaches, while achieving x100 speedup on CIFAR-10 over LOGO retraining.
- Abstract(参考訳): 視覚生成モデルのトレーニングデータ属性は、与えられた出力に影響を与えるトレーニングデータを特定することを目的としている。
ほとんどのメソッドは個々の例をスコアするが、実践者はグループレベルの回答(例えば、芸術的なスタイルやオブジェクトクラス)を必要とすることが多い。
モデルがトレーニングを欠席した場合、モデルが生成したサンプルの変化に対してどのように振る舞うか?
このカウンターファクトの自然な実現はLeave-One-Group-Out(LOGO)再トレーニングであり、各グループでモデルを再トレーニングするが、グループ数が増加するにつれて計算的に禁止される。
拡散モデルに対してGUDA(Group Unlearning-based Data Attribution)を提案する。
GUDAは、確率に基づくスコアリングルール(ELBO)における、全モデルと未学習の逆ファクトの差を用いて、グループの影響を定量化する。
CIFAR-10とStable Diffusionを用いた芸術的スタイルの属性実験により、GUDAは、LOGO再トレーニングよりもCIFAR-10のx100スピードアップを達成しつつ、意味的類似性、勾配に基づく属性、インスタンスレベルのアンラーニングアプローチよりも信頼性の高いプライマリ・コントリビューション・グループを同定した。
関連論文リスト
- Harnessing Diffusion-Generated Synthetic Images for Fair Image Classification [25.474389970409067]
画像分類システムは、トレーニングデータにおける不均一なグループ表現からのバイアスを継承することが多い。
本研究では,LoRAやDreamBoothなどの拡散微細化技術を用いて,各トレーニンググループをより正確に表現した画像を生成する。
論文 参考訳(メタデータ) (2025-11-11T19:20:13Z) - Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。
生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:37:16Z) - Distributional Training Data Attribution: What do Influence Functions Sample? [25.257922996567178]
分散学習データ属性(d-TDA)を導入する。
d-TDAの目標は、モデル出力の分布がデータセットに依存するかを予測することである。
影響関数 (IF) は「秘密分布」である。
論文 参考訳(メタデータ) (2025-06-15T21:02:36Z) - Data Debiasing with Datamodels (D3M): Improving Subgroup Robustness via Data Selection [80.85902083005237]
データモデルによるデータデバイアス(Data Debiasing with Datamodels, D3M)は、マイノリティグループにおけるモデルの障害を駆動する特定のトレーニング例を分離し、削除するデバイアス(debiasing)アプローチである。
論文 参考訳(メタデータ) (2024-06-24T17:51:01Z) - Ablation Based Counterfactuals [7.481286710933861]
ABC (Ablation Based Counterfactuals) は、モデル再訓練ではなくモデルアブレーションに依存する反ファクト解析を行う手法である。
拡散モデルの集合を用いてこのようなモデルを構築する方法を示す。
次に、このモデルを用いて、完全な対物的景観を列挙することで、トレーニングデータ属性の限界を研究する。
論文 参考訳(メタデータ) (2024-06-12T06:22:51Z) - Mutual Exclusive Modulator for Long-Tailed Recognition [12.706961256329572]
ロングテール認識は、カテゴリー間で極めて不均衡なトレーニングサンプルを与えられた高性能分類器を学習するタスクである。
各グループに属する画像の確率を推定できる相互排他変調器を導入する。
提案手法は,最先端のベンチマークと比較すると,競争性能が向上する。
論文 参考訳(メタデータ) (2023-02-19T07:31:49Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。