論文の概要: Erased or Dormant? Rethinking Concept Erasure Through Reversibility
- arxiv url: http://arxiv.org/abs/2505.16174v1
- Date: Thu, 22 May 2025 03:26:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.009575
- Title: Erased or Dormant? Rethinking Concept Erasure Through Reversibility
- Title(参考訳): 消去か休眠か : 可逆性による概念消去の再考
- Authors: Ping Liu, Chi Zhang,
- Abstract要約: 我々は、統一概念編集と消去安定拡散という2つの代表的な概念消去手法を評価する。
消去された概念は、最小限の適応の後、しばしばかなりの視覚的忠実度で再帰することを示す。
本研究は,既存の概念消去アプローチにおける限界を明らかにするものである。
- 参考スコア(独自算出の注目度): 8.454050090398713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To what extent does concept erasure eliminate generative capacity in diffusion models? While prior evaluations have primarily focused on measuring concept suppression under specific textual prompts, we explore a complementary and fundamental question: do current concept erasure techniques genuinely remove the ability to generate targeted concepts, or do they merely achieve superficial, prompt-specific suppression? We systematically evaluate the robustness and reversibility of two representative concept erasure methods, Unified Concept Editing and Erased Stable Diffusion, by probing their ability to eliminate targeted generative behaviors in text-to-image models. These methods attempt to suppress undesired semantic concepts by modifying internal model parameters, either through targeted attention edits or model-level fine-tuning strategies. To rigorously assess whether these techniques truly erase generative capacity, we propose an instance-level evaluation strategy that employs lightweight fine-tuning to explicitly test the reactivation potential of erased concepts. Through quantitative metrics and qualitative analyses, we show that erased concepts often reemerge with substantial visual fidelity after minimal adaptation, indicating that current methods suppress latent generative representations without fully eliminating them. Our findings reveal critical limitations in existing concept erasure approaches and highlight the need for deeper, representation-level interventions and more rigorous evaluation standards to ensure genuine, irreversible removal of concepts from generative models.
- Abstract(参考訳): 拡散モデルにおける概念消去が生成能力をどの程度排除するか?
従来の評価は、主に特定のテキストプロンプトの下で概念抑圧を測定することに焦点を当ててきたが、補完的で基本的な問題として、現在の概念消去技術は、ターゲットとなる概念を生成する能力を完全に取り除いているか、あるいは単に表面的で、即時的な抑制を達成しているだけなのか?
我々は,テキスト・ツー・イメージ・モデルにおいて,対象となる生成行動を排除する能力を探索することにより,2つの代表的な概念消去手法である統一概念編集と消去安定拡散の堅牢性と可逆性を体系的に評価した。
これらの手法は、対象とした注意編集やモデルレベルの微調整戦略を通じて、内部モデルパラメータを変更することによって、望ましくない意味概念を抑える。
本研究は,これらの技術が生成能力を完全に消去するかどうかを厳格に評価するために,軽量な微調整を用いて,消去された概念の再活性化ポテンシャルを明示的に検証するインスタンスレベルの評価戦略を提案する。
定量的なメトリクスと定性的分析により、消去された概念は最小適応後の視覚的忠実度に重畳されることがしばしばあり、現在の手法では、それらを完全に排除することなく、潜在的表現を抑えることが示されている。
本研究は, 既存の概念消去アプローチにおける限界を明らかにするとともに, より深い表現レベルの介入, より厳密な評価基準の必要性を強調し, 生成モデルから概念を真に, 不可逆的に除去することを保証する。
関連論文リスト
- When Are Concepts Erased From Diffusion Models? [44.89615668122767]
概念消去とは、モデルが特定の概念を生成するのを選択的に阻止する能力である。
拡散モデルにおける消去機構の2つの概念モデルを提案する。
概念がモデルから真に消去されたかどうかを徹底的に評価するために,独立した評価スイートを導入する。
論文 参考訳(メタデータ) (2025-05-22T17:59:09Z) - Continual Unlearning for Foundational Text-to-Image Models without Generalization Erosion [56.35484513848296]
本研究は,基本生成モデルから複数の特定の概念を対象とする除去を可能にする新しいパラダイムである連続的アンラーニングを導入する。
本稿では,望ましくない概念の生成を選択的に解き放つような一般化エロージョン(DUGE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-17T23:17:16Z) - Fantastic Targets for Concept Erasure in Diffusion Models and Where To Find Them [21.386640828092524]
概念消去は拡散モデルにおける有害なコンテンツ生成のリスクを軽減するための有望な手法として現れてきた。
本稿では,各望ましくない概念に合わせて最適な目標概念を動的に選択するAdaptive Guided Erasure (AGE)法を提案する。
その結果, AGEは, 有効消去性能を維持しつつ, 無関係な概念を保存し, 最先端の消去手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-31T08:17:23Z) - EraseBench: Understanding The Ripple Effects of Concept Erasure Techniques [20.2544260436998]
概念消去技術は、テキスト・ツー・イメージ・モデルから不要な概念を取り除くことができる。
我々は,現在の概念消去技術の障害モードを体系的に検討する。
本稿では,概念消去手法をより深く評価するためのベンチマークであるEraseBENCHを紹介する。
以上の結果から,最先端技術でさえ品質維持に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-16T20:42:17Z) - Separable Multi-Concept Erasure from Diffusion Models [52.51972530398691]
大規模拡散モデルから安全でない概念を排除するために,分離可能なマルチコンセプト消去器(SepME)を提案する。
後者は最適化可能なモデルウェイトを分離し、各ウェイトインクリメントは特定の概念の消去に対応する。
広範囲にわたる実験は, 概念の排除, モデル性能の保存, 各種概念の消去・回復における柔軟性の確保に, アプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-03T11:10:57Z) - Receler: Reliable Concept Erasing of Text-to-Image Diffusion Models via Lightweight Erasers [24.64639078273091]
テキストから画像への拡散モデルにおける概念消去は、対象概念に関連する画像の生成から事前学習された拡散モデルを無効にすることを目的としている。
軽量エローザ(レセラー)による信頼性概念消去の提案
論文 参考訳(メタデータ) (2023-11-29T15:19:49Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。