論文の概要: Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models
- arxiv url: http://arxiv.org/abs/2603.06640v1
- Date: Sat, 28 Feb 2026 00:08:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.591915
- Title: Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models
- Title(参考訳): 根の下の根:拡散モデルにおけるプランニングに基づくアンラーニングにおける概念復活のリスクを明らかにする
- Authors: Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan,
- Abstract要約: プランニングベースのアンラーニングは、望ましくない概念を拡散モデルから取り除くための、高速で、トレーニング不要で、データに依存しないアプローチである。
刈り取られた重量の位置は、通常、学習中にゼロに設定され、消去された概念に関する重要な情報を漏らすサイドチャネル信号として機能する。
本研究では,完全にデータフリーかつトレーニングフリーな方法で,切断された拡散モデルから消去された概念を復活させることのできる,新たな攻撃フレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.697535404861252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pruning-based unlearning has recently emerged as a fast, training-free, and data-independent approach to remove undesired concepts from diffusion models. It promises high efficiency and robustness, offering an attractive alternative to traditional fine-tuning or editing-based unlearning. However, in this paper we uncover a hidden danger behind this promising paradigm. We find that the locations of pruned weights, typically set to zero during unlearning, can act as side-channel signals that leak critical information about the erased concepts. To verify this vulnerability, we design a novel attack framework capable of reviving erased concepts from pruned diffusion models in a fully data-free and training-free manner. Our experiments confirm that pruning-based unlearning is not inherently secure, as erased concepts can be effectively revived without any additional data or retraining. Extensive experiments on diffusion-based unlearning based on concept related weights lead to the conclusion: once the critical concept-related weights in diffusion models are identified, our method can effectively recover the original concept regardless of how the weights are manipulated. Finally, we explore potential defense strategies and advocate safer pruning mechanisms that conceal pruning locations while preserving unlearning effectiveness, providing practical insights for designing more secure pruning-based unlearning frameworks.
- Abstract(参考訳): プランニングベースのアンラーニングは、拡散モデルから望ましくない概念を取り除くために、高速で、トレーニング不要で、データに依存しないアプローチとして最近登場した。
高効率と堅牢性を実現し、従来の微調整や編集ベースのアンラーニングに代わる魅力的な代替手段を提供する。
しかし、本稿では、この有望なパラダイムの背後にある隠れた危険を明らかにする。
刈り取られた重量の位置は、通常、学習中にゼロに設定され、消去された概念に関する重要な情報を漏らすサイドチャネル信号として機能する。
この脆弱性を検証するため、我々は、完全にデータフリーでトレーニングフリーな方法で、切断された拡散モデルから消去された概念を復活させることができる新しい攻撃フレームワークを設計した。
我々の実験では、削除された概念を追加データや再学習なしに効果的に復活させることができるため、プルーニングベースの未学習は本質的に安全ではないことを確認した。
拡散モデルにおける重要な概念関連重みが特定できれば、ウェイトがどのように操作されたかに関わらず、本手法は元の概念を効果的に回復することができる。
最後に、潜在的防衛戦略を探求し、未学習の有効性を維持しつつ、未学習の場所を隠蔽し、より安全なプランニングベースの未学習フレームワークを設計するための実践的な洞察を提供する安全なプランニングメカニズムを提唱する。
関連論文リスト
- ReLAPSe: Reinforcement-Learning-trained Adversarial Prompt Search for Erased concepts in unlearned diffusion models [12.021923446217722]
マシン・アンラーニングは、テキスト・ツー・イメージ拡散モデルから不正な概念を取り除くための鍵となる防御メカニズムである。
この漏洩を悪用する既存の敵のアプローチは、基本的な制限によって制約される。
本稿では,ReLAPSeについて紹介する。ReLAPSeは,概念回復を強化学習問題として再編成する政策ベースの敵対的枠組みである。
論文 参考訳(メタデータ) (2026-01-30T21:56:50Z) - The Illusion of Forgetting: Attack Unlearned Diffusion via Initial Latent Variable Optimization [51.835894707552946]
非学習型防衛は拡散モデル(DM)からNot-Safe-For-Work概念を浄化すると主張している
本研究では,未学習が言語記号と基礎知識のマッピングを部分的に破壊し,休眠記憶として残り続けることを示す。
IVOは、壊れたマッピングを再構築することで、これらの休眠記憶を再活性化する簡潔で強力な攻撃フレームワークである。
論文 参考訳(メタデータ) (2026-01-30T02:39:51Z) - Continual Unlearning for Foundational Text-to-Image Models without Generalization Erosion [56.35484513848296]
本研究は,基本生成モデルから複数の特定の概念を対象とする除去を可能にする新しいパラダイムである連続的アンラーニングを導入する。
本稿では,望ましくない概念の生成を選択的に解き放つような一般化エロージョン(DUGE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-17T23:17:16Z) - Rethinking the Vulnerability of Concept Erasure and a New Method [9.044763606650646]
概念消去 (defense) 法は、ポストホック微調整によって特定の概念を「未学習」するために開発された。
最近の概念復元(アタック)手法は、これら消去されたと思われる概念を、逆向きのプロンプトで復元できることを実証している。
本稿では,従来の修復手法を最大17.8倍に向上させる新しい座標descentベースの復元アルゴリズムである**RECORD*を紹介する。
論文 参考訳(メタデータ) (2025-02-24T17:26:01Z) - Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models [7.9993879763024065]
本稿では,拡散モデルにおける未学習の5つの手法の理論的,実証的研究について述べる。
概念検索スコア(textbfCRS)と概念信頼スコア(textbfCCS)の2つの新しい評価指標を導入する。
論文 参考訳(メタデータ) (2024-09-09T14:38:31Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient [20.698305103879232]
我々はtextbfDoCo (textbfDomaintextbfCorrection) という新しい概念領域補正フレームワークを提案する。
本手法は, 対象概念の包括的未学習を保証し, 先進的学習を通して, センシティブな概念とアンカーの概念の出力領域を整合させることにより, 対象概念の包括的未学習を確実にする。
また、矛盾する勾配成分を緩和し、特定の概念を学習しながらモデルの実用性を維持するための概念保存的勾配手術手法も導入する。
論文 参考訳(メタデータ) (2024-05-24T07:47:36Z) - Hiding and Recovering Knowledge in Text-to-Image Diffusion Models via Learnable Prompts [23.04942433104886]
我々は、望ましくない概念を公開ユーザにとってアクセスし難いものにする、新しいコンセプトハイディングアプローチを導入する。
モデルから知識を完全に消去する代わりに、学習可能なプロンプトをクロスアテンションモジュールに組み込む。
これにより、フレキシブルなアクセス制御が可能になります -- 望ましくないコンテンツが簡単に生成されないようにし、再保存するオプションを保持します。
論文 参考訳(メタデータ) (2024-03-18T23:42:04Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。