論文の概要: Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models
- arxiv url: http://arxiv.org/abs/2409.05668v1
- Date: Mon, 9 Sep 2024 14:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 14:19:16.216068
- Title: Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models
- Title(参考訳): アンラーニング・コンシールメント : 拡散モデルにおけるアンラーニングの批判的分析と評価指標
- Authors: Aakash Sen Sharma, Niladri Sarkar, Vikram Chundawat, Ankur A Mali, Murari Mandal,
- Abstract要約: 既存の手法で未学習に使用する目的関数が,対象概念の分離に繋がることを示す。
現在の手法の非効率性は、主に特定のプロンプト集合の生成確率の減少に焦点を絞ったものである。
CRS(Concept Retrieval Score)とCCS(Concept Confidence Score)の2つの新しい評価指標を紹介した。
- 参考スコア(独自算出の注目度): 7.9993879763024065
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent research has seen significant interest in methods for concept removal and targeted forgetting in diffusion models. In this paper, we conduct a comprehensive white-box analysis to expose significant vulnerabilities in existing diffusion model unlearning methods. We show that the objective functions used for unlearning in the existing methods lead to decoupling of the targeted concepts (meant to be forgotten) for the corresponding prompts. This is concealment and not actual unlearning, which was the original goal. The ineffectiveness of current methods stems primarily from their narrow focus on reducing generation probabilities for specific prompt sets, neglecting the diverse modalities of intermediate guidance employed during the inference process. The paper presents a rigorous theoretical and empirical examination of four commonly used techniques for unlearning in diffusion models. We introduce two new evaluation metrics: Concept Retrieval Score (CRS) and Concept Confidence Score (CCS). These metrics are based on a successful adversarial attack setup that can recover forgotten concepts from unlearned diffusion models. The CRS measures the similarity between the latent representations of the unlearned and fully trained models after unlearning. It reports the extent of retrieval of the forgotten concepts with increasing amount of guidance. The CCS quantifies the confidence of the model in assigning the target concept to the manipulated data. It reports the probability of the unlearned model's generations to be aligned with the original domain knowledge with increasing amount of guidance. Evaluating existing unlearning methods with our proposed stringent metrics for diffusion models reveals significant shortcomings in their ability to truly unlearn concepts. Source Code: https://respailab.github.io/unlearning-or-concealment
- Abstract(参考訳): 近年の研究では、拡散モデルにおける概念の除去と目標忘れの方法に大きな関心が寄せられている。
本稿では,既存の拡散モデルアンラーニング手法の重大な脆弱性を明らかにするために,包括的ホワイトボックス解析を行う。
既存の手法で未学習に使用する目的関数が,対象概念(忘れられがちな概念)を,対応するプロンプトに対して分離することにつながることを示す。
これは隠蔽であり、本来の未学習ではない。
現在の手法の非効率性は、主に特定のプロンプトセットの生成確率を減らし、推論プロセスで使用される中間ガイダンスの多様さを無視することに起因する。
本稿では,拡散モデルにおける非学習のための4つの手法について,厳密な理論的および実証的研究を行った。
本稿では,CRS(Concept Retrieval Score)とCCS(Concept Confidence Score)の2つの新しい評価指標を紹介する。
これらの指標は、未学習の拡散モデルから忘れられた概念を復元できる敵攻撃設定の成功に基づいている。
CRSは、未学習の後の未学習モデルと完全に訓練されたモデルの潜在表現の類似度を測定する。
本報告では, 忘れられた概念の検索範囲を, ガイダンスの量の増加とともに報告する。
CCSは、対象概念を操作されたデータに割り当てる際のモデルの信頼性を定量化する。
これは、未学習モデルの世代が、ガイダンスの量の増加とともに、元のドメイン知識と整合する可能性を報告している。
拡散モデルのための厳密な指標を用いた既存の未学習手法の評価は、真の未学習概念の能力に重大な欠点があることを示唆している。
ソースコード:https://respailab.github.io/unlearning-or-concealment
関連論文リスト
- Score Forgetting Distillation: A Swift, Data-Free Method for Machine Unlearning in Diffusion Models [63.43422118066493]
マシン・アンラーニング(MU)は安全でセキュアで信頼性の高いGenAIモデルを開発する上で重要な基盤である。
従来のMUメソッドは、しばしば厳密な仮定に依存し、実際のデータへのアクセスを必要とする。
本稿では,拡散モデルにおいて望ましくない情報を忘れることを促進する革新的なMUアプローチであるScore Forgetting Distillation (SFD)を紹介する。
論文 参考訳(メタデータ) (2024-09-17T14:12:50Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces [34.00971641141313]
近年,大規模言語モデル(LLM)の「学習」概念が注目されている。
未学習の手法を評価するための現在のプロトコルは、関連する知識を監視せずに行動テストに依存している。
我々は、未学習概念のパラメトリックな知識トレースの変化を考慮して、未学習を内部的に評価するべきだと論じている。
論文 参考訳(メタデータ) (2024-06-17T15:00:35Z) - Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient [20.091446060893638]
本稿では,拡散モデルにおける非学習概念のための概念領域補正フレームワークを提案する。
直感的概念とアンカー的概念の出力領域を敵対的訓練によって整合させることにより、未学習結果の一般化性を高める。
論文 参考訳(メタデータ) (2024-05-24T07:47:36Z) - Probing Unlearned Diffusion Models: A Transferable Adversarial Attack Perspective [20.263233740360022]
拡散モデルから概念を消去するアンラーニング手法が開発されている。
本論文は,ブラックボックス環境下での非学習的ロバスト性を探索するために,敵攻撃の伝達可能性を活用することを目的とする。
具体的には、異なる未学習モデル間での移動が可能な逆埋め込みを探索するために、逆探索戦略を用いる。
論文 参考訳(メタデータ) (2024-04-30T09:14:54Z) - Model Will Tell: Training Membership Inference for Diffusion Models [15.16244745642374]
トレーニングメンバーシップ推論(TMI)タスクは、ターゲットモデルのトレーニングプロセスで特定のサンプルが使用されているかどうかを判断することを目的としている。
本稿では,拡散モデル内における本質的な生成先行情報を活用することで,TMIタスクの新たな視点を探求する。
論文 参考訳(メタデータ) (2024-03-13T12:52:37Z) - Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。
ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。
これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文 参考訳(メタデータ) (2023-11-28T16:46:14Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - A Survey on Evidential Deep Learning For Single-Pass Uncertainty
Estimation [0.0]
情報深層学習(Evidential Deep Learning): 馴染みのないデータに対して、彼らは“知らないこと”を認め、以前の信念に戻る。
この調査は、Evidential Deep Learningという概念に基づいた、別のモデルのクラスを読者に親しみやすくすることを目的としている。
論文 参考訳(メタデータ) (2021-10-06T20:13:57Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。
具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。
大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文 参考訳(メタデータ) (2021-03-07T03:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。