論文の概要: Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models
- arxiv url: http://arxiv.org/abs/2409.05668v2
- Date: Thu, 12 Dec 2024 07:13:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 17:01:11.875102
- Title: Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models
- Title(参考訳): アンラーニング・コンシールメント : 拡散モデルにおけるアンラーニングの批判的分析と評価指標
- Authors: Aakash Sen Sharma, Niladri Sarkar, Vikram Chundawat, Ankur A Mali, Murari Mandal,
- Abstract要約: 本稿では,拡散モデルにおける未学習の5つの手法の理論的,実証的研究について述べる。
概念検索スコア(textbfCRS)と概念信頼スコア(textbfCCS)の2つの新しい評価指標を導入する。
- 参考スコア(独自算出の注目度): 7.9993879763024065
- License:
- Abstract: Recent research has seen significant interest in methods for concept removal and targeted forgetting in text-to-image diffusion models. In this paper, we conduct a comprehensive white-box analysis showing the vulnerabilities in existing diffusion model unlearning methods. We show that existing unlearning methods lead to decoupling of the targeted concepts (meant to be forgotten) for the corresponding prompts. This is concealment and not actual forgetting, which was the original goal. This paper presents a rigorous theoretical and empirical examination of five commonly used techniques for unlearning in diffusion models, while showing their potential weaknesses. We introduce two new evaluation metrics: Concept Retrieval Score (\textbf{CRS}) and Concept Confidence Score (\textbf{CCS}). These metrics are based on a successful adversarial attack setup that can recover \textit{forgotten} concepts from unlearned diffusion models. \textbf{CRS} measures the similarity between the latent representations of the unlearned and fully trained models after unlearning. It reports the extent of retrieval of the \textit{forgotten} concepts with increasing amount of guidance. CCS quantifies the confidence of the model in assigning the target concept to the manipulated data. It reports the probability of the \textit{unlearned} model's generations to be aligned with the original domain knowledge with increasing amount of guidance. The \textbf{CCS} and \textbf{CRS} enable a more robust evaluation of concept erasure methods. Evaluating existing five state-of-the-art methods with our metrics, reveal significant shortcomings in their ability to truly \textit{unlearn}. Source Code: \color{blue}{https://respailab.github.io/unlearning-or-concealment}
- Abstract(参考訳): 近年の研究では、テキスト・ツー・イメージ拡散モデルにおいて、概念の除去とターゲットの忘れの方法に大きな関心が寄せられている。
本稿では,既存の拡散モデルアンラーニング手法の脆弱性を示す包括的ホワイトボックス解析を行う。
既存のアンラーニング手法は,対象概念(忘れられがちな概念)を,対応するプロンプトに対して分離することにつながることを示す。
これは隠蔽であり、本来の目標である本当の忘れ物ではない。
本稿では,拡散モデルでよく用いられる5つの非学習手法の厳密な理論的,実証的な検討を行い,その潜在的な弱点を示す。
本稿では,概念検索スコア(\textbf{CRS})と概念信頼スコア(\textbf{CCS})の2つの新しい評価指標を紹介する。
これらのメトリクスは、未学習の拡散モデルから \textit{forgotten} の概念を復元できる、成功した敵攻撃設定に基づいている。
textbf{CRS} は、学習後に学習されていないモデルと完全に訓練されたモデルの潜在表現の類似度を測定する。
ガイダンスの量の増加とともに, textit{forgotten} 概念の検索範囲を報告する。
CCSは、対象概念を操作されたデータに割り当てる際のモデルの信頼性を定量化する。
この論文は、‘textit{unlearned} モデルの世代が、ガイダンスの量の増加とともに、元のドメイン知識と整合する確率を報告している。
textbf{CCS} と \textbf{CRS} は概念消去法のより堅牢な評価を可能にする。
既存の5つの最先端メソッドをメトリクスで評価すると、真の \textit{unlearn} の能力に重大な欠点が明らかになる。
出典: \color{blue}{https://respailab.github.io/unlearning-or-concealment}
関連論文リスト
- On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Score Forgetting Distillation: A Swift, Data-Free Method for Machine Unlearning in Diffusion Models [63.43422118066493]
マシン・アンラーニング(MU)は安全でセキュアで信頼性の高いGenAIモデルを開発する上で重要な基盤である。
従来のMUメソッドは、しばしば厳密な仮定に依存し、実際のデータへのアクセスを必要とする。
本稿では,拡散モデルにおいて望ましくない情報を忘れることを促進する革新的なMUアプローチであるScore Forgetting Distillation (SFD)を紹介する。
論文 参考訳(メタデータ) (2024-09-17T14:12:50Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces [34.00971641141313]
近年,大規模言語モデル(LLM)の「学習」概念が注目されている。
未学習の手法を評価するための現在のプロトコルは、関連する知識を監視せずに行動テストに依存している。
我々は、未学習概念のパラメトリックな知識トレースの変化を考慮して、未学習を内部的に評価するべきだと論じている。
論文 参考訳(メタデータ) (2024-06-17T15:00:35Z) - Probing Unlearned Diffusion Models: A Transferable Adversarial Attack Perspective [20.263233740360022]
拡散モデルから概念を消去するアンラーニング手法が開発されている。
本論文は,ブラックボックス環境下での非学習的ロバスト性を探索するために,敵攻撃の伝達可能性を活用することを目的とする。
具体的には、異なる未学習モデル間での移動が可能な逆埋め込みを探索するために、逆探索戦略を用いる。
論文 参考訳(メタデータ) (2024-04-30T09:14:54Z) - Statistically Significant Concept-based Explanation of Image Classifiers
via Model Knockoffs [22.576922942465142]
概念に基づく説明は、非関連概念を予測タスクにとって重要であると誤解する偽陽性を引き起こす可能性がある。
深層学習モデルを用いて画像概念を学習し,Knockoffサンプルを用いて予測のための重要な概念を選択する手法を提案する。
論文 参考訳(メタデータ) (2023-05-27T05:40:05Z) - Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。
本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文 参考訳(メタデータ) (2023-03-23T03:13:04Z) - ADDMU: Detection of Far-Boundary Adversarial Examples with Data and
Model Uncertainty Estimation [125.52743832477404]
AED(Adversarial Examples Detection)は、敵攻撃に対する重要な防御技術である。
本手法は, 正逆検出とFB逆検出の2種類の不確実性推定を組み合わせた新しい手法である textbfADDMU を提案する。
提案手法は,各シナリオにおいて,従来の手法よりも3.6と6.0のEmphAUC点が優れていた。
論文 参考訳(メタデータ) (2022-10-22T09:11:12Z) - Probing Classifiers are Unreliable for Concept Removal and Detection [18.25734277357466]
テキストデータに基づいてトレーニングされたニューラルネットワークモデルは、その表現において望ましくない言語的あるいはセンシティブな概念を符号化する。
近年の研究では、そのような不要な概念をモデル表現から除去するためのポストホックおよび逆法が提案されている。
これらの手法は非生産的であり、最悪の場合、すべてのタスク関連機能を破壊する可能性がある。
論文 参考訳(メタデータ) (2022-07-08T23:15:26Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Counterfactual Evaluation for Explainable AI [21.055319253405603]
そこで本稿では, 文献的推論の観点から, 説明の忠実さを評価する新しい手法を提案する。
離散シナリオと連続シナリオの両方において適切な反事実を見つけるために2つのアルゴリズムを導入し、取得した反事実を用いて忠実度を測定する。
論文 参考訳(メタデータ) (2021-09-05T01:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。