Fugu-MT 論文翻訳(概要): Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models

論文の概要: Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models

arxiv url: http://arxiv.org/abs/2409.05668v1
Date: Mon, 9 Sep 2024 14:38:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 14:19:16.216068
Title: Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models
Title（参考訳）: アンラーニング・コンシールメント : 拡散モデルにおけるアンラーニングの批判的分析と評価指標
Authors: Aakash Sen Sharma, Niladri Sarkar, Vikram Chundawat, Ankur A Mali, Murari Mandal,
Abstract要約: 既存の手法で未学習に使用する目的関数が,対象概念の分離に繋がることを示す。現在の手法の非効率性は、主に特定のプロンプト集合の生成確率の減少に焦点を絞ったものである。 CRS(Concept Retrieval Score)とCCS(Concept Confidence Score)の2つの新しい評価指標を紹介した。
参考スコア（独自算出の注目度）: 7.9993879763024065
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent research has seen significant interest in methods for concept removal and targeted forgetting in diffusion models. In this paper, we conduct a comprehensive white-box analysis to expose significant vulnerabilities in existing diffusion model unlearning methods. We show that the objective functions used for unlearning in the existing methods lead to decoupling of the targeted concepts (meant to be forgotten) for the corresponding prompts. This is concealment and not actual unlearning, which was the original goal. The ineffectiveness of current methods stems primarily from their narrow focus on reducing generation probabilities for specific prompt sets, neglecting the diverse modalities of intermediate guidance employed during the inference process. The paper presents a rigorous theoretical and empirical examination of four commonly used techniques for unlearning in diffusion models. We introduce two new evaluation metrics: Concept Retrieval Score (CRS) and Concept Confidence Score (CCS). These metrics are based on a successful adversarial attack setup that can recover forgotten concepts from unlearned diffusion models. The CRS measures the similarity between the latent representations of the unlearned and fully trained models after unlearning. It reports the extent of retrieval of the forgotten concepts with increasing amount of guidance. The CCS quantifies the confidence of the model in assigning the target concept to the manipulated data. It reports the probability of the unlearned model's generations to be aligned with the original domain knowledge with increasing amount of guidance. Evaluating existing unlearning methods with our proposed stringent metrics for diffusion models reveals significant shortcomings in their ability to truly unlearn concepts. Source Code: https://respailab.github.io/unlearning-or-concealment
Abstract（参考訳）: 近年の研究では、拡散モデルにおける概念の除去と目標忘れの方法に大きな関心が寄せられている。本稿では,既存の拡散モデルアンラーニング手法の重大な脆弱性を明らかにするために,包括的ホワイトボックス解析を行う。既存の手法で未学習に使用する目的関数が,対象概念(忘れられがちな概念)を,対応するプロンプトに対して分離することにつながることを示す。これは隠蔽であり、本来の未学習ではない。現在の手法の非効率性は、主に特定のプロンプトセットの生成確率を減らし、推論プロセスで使用される中間ガイダンスの多様さを無視することに起因する。本稿では,拡散モデルにおける非学習のための4つの手法について,厳密な理論的および実証的研究を行った。本稿では,CRS(Concept Retrieval Score)とCCS(Concept Confidence Score)の2つの新しい評価指標を紹介する。これらの指標は、未学習の拡散モデルから忘れられた概念を復元できる敵攻撃設定の成功に基づいている。 CRSは、未学習の後の未学習モデルと完全に訓練されたモデルの潜在表現の類似度を測定する。本報告では, 忘れられた概念の検索範囲を, ガイダンスの量の増加とともに報告する。 CCSは、対象概念を操作されたデータに割り当てる際のモデルの信頼性を定量化する。これは、未学習モデルの世代が、ガイダンスの量の増加とともに、元のドメイン知識と整合する可能性を報告している。拡散モデルのための厳密な指標を用いた既存の未学習手法の評価は、真の未学習概念の能力に重大な欠点があることを示唆している。ソースコード:https://respailab.github.io/unlearning-or-concealment

関連論文リスト

Automating Evaluation of Diffusion Model Unlearning with (Vision-) Language Model World Knowledge [6.4411440750013735]
マシン・アンラーニング(英: Machine Unlearning、MU)は、基本的な拡散モデルから望ましくない情報(概念、バイアス、パターン)を浄化するコスト効率の良い方法である。拡散モデルにおける未学習を徹底的に評価するために(ビジョン-)言語モデルを活用する自動ツールであるautoeval-dmunを導入する。対象とする概念が与えられたとき、オートエスバル・ダンは言語モデルから構造化された関連する世界知識を抽出し、未学習によって損傷を受けやすい近くの概念を特定する。
論文参考訳（メタデータ） (2025-07-09T00:51:09Z)
Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models [56.35484513848296]
FADE(Fine grained Attenuation for Diffusion Erasure)は、テキストから画像への生成モデルのための非学習アルゴリズムである。関連する概念に最小限の影響で目標概念を排除し、最先端の手法よりも保持性能が12%向上した。
論文参考訳（メタデータ） (2025-03-25T15:49:48Z)
Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [70.78205685001168]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。 UGBenchは、スコープ内暗黙の知識の未学習を評価するために特別に設計された最初のベンチマークである。確率に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
論文参考訳（メタデータ） (2025-02-27T11:03:33Z)
Score Forgetting Distillation: A Swift, Data-Free Method for Machine Unlearning in Diffusion Models [63.43422118066493]
マシン・アンラーニング(MU)は安全でセキュアで信頼性の高いGenAIモデルを開発する上で重要な基盤である。従来のMUメソッドは、しばしば厳密な仮定に依存し、実際のデータへのアクセスを必要とする。本稿では,拡散モデルにおいて望ましくない情報を忘れることを促進する革新的なMUアプローチであるScore Forgetting Distillation (SFD)を紹介する。
論文参考訳（メタデータ） (2024-09-17T14:12:50Z)
Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文参考訳（メタデータ） (2024-07-26T10:49:14Z)
Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文参考訳（メタデータ） (2024-06-21T03:58:44Z)
Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces [34.00971641141313]
近年,大規模言語モデル(LLM)の「学習」概念が注目されている。未学習の手法を評価するための現在のプロトコルは、関連する知識を監視せずに行動テストに依存している。我々は、未学習概念のパラメトリックな知識トレースの変化を考慮して、未学習を内部的に評価するべきだと論じている。
論文参考訳（メタデータ） (2024-06-17T15:00:35Z)
Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文参考訳（メタデータ） (2024-06-06T17:59:09Z)
Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient [20.091446060893638]
本稿では,拡散モデルにおける非学習概念のための概念領域補正フレームワークを提案する。直感的概念とアンカー的概念の出力領域を敵対的訓練によって整合させることにより、未学習結果の一般化性を高める。
論文参考訳（メタデータ） (2024-05-24T07:47:36Z)
Probing Unlearned Diffusion Models: A Transferable Adversarial Attack Perspective [20.263233740360022]
拡散モデルから概念を消去するアンラーニング手法が開発されている。本論文は,ブラックボックス環境下での非学習的ロバスト性を探索するために,敵攻撃の伝達可能性を活用することを目的とする。具体的には、異なる未学習モデル間での移動が可能な逆埋め込みを探索するために、逆探索戦略を用いる。
論文参考訳（メタデータ） (2024-04-30T09:14:54Z)
Model Will Tell: Training Membership Inference for Diffusion Models [15.16244745642374]
トレーニングメンバーシップ推論(TMI)タスクは、ターゲットモデルのトレーニングプロセスで特定のサンプルが使用されているかどうかを判断することを目的としている。本稿では,拡散モデル内における本質的な生成先行情報を活用することで,TMIタスクの新たな視点を探求する。
論文参考訳（メタデータ） (2024-03-13T12:52:37Z)
Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文参考訳（メタデータ） (2023-11-28T16:46:14Z)
Statistically Significant Concept-based Explanation of Image Classifiers via Model Knockoffs [22.576922942465142]
概念に基づく説明は、非関連概念を予測タスクにとって重要であると誤解する偽陽性を引き起こす可能性がある。深層学習モデルを用いて画像概念を学習し,Knockoffサンプルを用いて予測のための重要な概念を選択する手法を提案する。
論文参考訳（メタデータ） (2023-05-27T05:40:05Z)
Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文参考訳（メタデータ） (2023-03-23T03:13:04Z)
ADDMU: Detection of Far-Boundary Adversarial Examples with Data and Model Uncertainty Estimation [125.52743832477404]
AED(Adversarial Examples Detection)は、敵攻撃に対する重要な防御技術である。本手法は, 正逆検出とFB逆検出の2種類の不確実性推定を組み合わせた新しい手法である textbfADDMU を提案する。提案手法は,各シナリオにおいて,従来の手法よりも3.6と6.0のEmphAUC点が優れていた。
論文参考訳（メタデータ） (2022-10-22T09:11:12Z)
Probing Classifiers are Unreliable for Concept Removal and Detection [18.25734277357466]
テキストデータに基づいてトレーニングされたニューラルネットワークモデルは、その表現において望ましくない言語的あるいはセンシティブな概念を符号化する。近年の研究では、そのような不要な概念をモデル表現から除去するためのポストホックおよび逆法が提案されている。これらの手法は非生産的であり、最悪の場合、すべてのタスク関連機能を破壊する可能性がある。
論文参考訳（メタデータ） (2022-07-08T23:15:26Z)
Explain, Edit, and Understand: Rethinking User Study Design for Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文参考訳（メタデータ） (2021-12-17T18:29:56Z)
A Survey on Evidential Deep Learning For Single-Pass Uncertainty Estimation [0.0]
情報深層学習(Evidential Deep Learning): 馴染みのないデータに対して、彼らは“知らないこと”を認め、以前の信念に戻る。この調査は、Evidential Deep Learningという概念に基づいた、別のモデルのクラスを読者に親しみやすくすることを目的としている。
論文参考訳（メタデータ） (2021-10-06T20:13:57Z)
Counterfactual Evaluation for Explainable AI [21.055319253405603]
そこで本稿では, 文献的推論の観点から, 説明の忠実さを評価する新しい手法を提案する。離散シナリオと連続シナリオの両方において適切な反事実を見つけるために2つのアルゴリズムを導入し、取得した反事実を用いて忠実度を測定する。
論文参考訳（メタデータ） (2021-09-05T01:38:49Z)
Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文参考訳（メタデータ） (2021-03-18T12:57:34Z)
Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文参考訳（メタデータ） (2021-03-07T03:10:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。