論文の概要: The Illusion of Forgetting: Attack Unlearned Diffusion via Initial Latent Variable Optimization
- arxiv url: http://arxiv.org/abs/2602.00175v1
- Date: Fri, 30 Jan 2026 02:39:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.029585
- Title: The Illusion of Forgetting: Attack Unlearned Diffusion via Initial Latent Variable Optimization
- Title(参考訳): 予測のイラシオン:初期潜時可変最適化による未学習拡散の攻撃
- Authors: Manyi Li, Yufan Liu, Lai Jiang, Bing Li, Yuming Li, Weiming Hu,
- Abstract要約: 非学習型防衛は拡散モデル(DM)からNot-Safe-For-Work概念を浄化すると主張している
本研究では,未学習が言語記号と基礎知識のマッピングを部分的に破壊し,休眠記憶として残り続けることを示す。
IVOは、壊れたマッピングを再構築することで、これらの休眠記憶を再活性化する簡潔で強力な攻撃フレームワークである。
- 参考スコア(独自算出の注目度): 51.835894707552946
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although unlearning-based defenses claim to purge Not-Safe-For-Work (NSFW) concepts from diffusion models (DMs), we reveals that this "forgetting" is largely an illusion. Unlearning partially disrupts the mapping between linguistic symbols and the underlying knowledge, which remains intact as dormant memories. We find that the distributional discrepancy in the denoising process serves as a measurable indicator of how much of the mapping is retained, also reflecting the strength of unlearning. Inspired by this, we propose IVO (Initial Latent Variable Optimization), a concise and powerful attack framework that reactivates these dormant memories by reconstructing the broken mappings. Through Image Inversion}, Adversarial Optimization and Reused Attack, IVO optimizes initial latent variables to realign the noise distribution of unlearned models with their original unsafe states. Extensive experiments across 8 widely used unlearning techniques demonstrate that IVO achieves superior attack success rates and strong semantic consistency, exposing fundamental flaws in current defenses. The code is available at anonymous.4open.science/r/IVO/. Warning: This paper has unsafe images that may offend some readers.
- Abstract(参考訳): 非学習ベースの防衛は、拡散モデル(DM)からNot-Safe-For-Work(NSFW)の概念を浄化すると主張しているが、この"forgetting"は大部分が錯覚である。
アンラーニングは、言語記号と根底にある知識の間のマッピングを部分的に破壊し、休眠記憶として残ったままである。
その結果,デノナイジング過程における分布差は,地図の保持量を計測可能な指標として機能し,未学習の強さを反映していることがわかった。
そこで本研究では, 破壊されたマッピングを再構築することで, これらの休眠記憶を再活性化する, 簡潔で強力な攻撃フレームワーク IVO (Initial Latent Variable Optimization) を提案する。
Image Inversion}、Adversarial Optimization、Reused Attackを通じて、IVOは、初期潜伏変数を最適化し、未学習モデルのノイズ分布を元の安全でない状態で認識する。
広く使われている8つの未学習技術に対する大規模な実験は、IVOが優れた攻撃成功率と強力なセマンティック一貫性を達成し、現在の防衛における根本的な欠陥を明らかにしていることを示している。
コードは匿名の.4open.science/r/IVO/で入手できる。
警告: この論文には、一部の読者を怒らせる可能性のある、安全でないイメージがある。
関連論文リスト
- ReLAPSe: Reinforcement-Learning-trained Adversarial Prompt Search for Erased concepts in unlearned diffusion models [12.021923446217722]
マシン・アンラーニングは、テキスト・ツー・イメージ拡散モデルから不正な概念を取り除くための鍵となる防御メカニズムである。
この漏洩を悪用する既存の敵のアプローチは、基本的な制限によって制約される。
本稿では,ReLAPSeについて紹介する。ReLAPSeは,概念回復を強化学習問題として再編成する政策ベースの敵対的枠組みである。
論文 参考訳(メタデータ) (2026-01-30T21:56:50Z) - Deep Leakage with Generative Flow Matching Denoiser [54.05993847488204]
再建プロセスに先立って生成フローマッチング(FM)を組み込んだ新しい深部リーク攻撃(DL)を導入する。
当社のアプローチは、ピクセルレベル、知覚的、特徴に基づく類似度測定において、最先端の攻撃よりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-21T14:51:01Z) - Latent Diffusion Unlearning: Protecting Against Unauthorized Personalization Through Trajectory Shifted Perturbations [18.024767641200064]
本稿では,拡散モデルの潜在空間内で機能するモデルベース摂動戦略を提案する。
本手法は,拡散モデルにおいて,デノナイジング軌道の開始点を変更しながら,デノナイジングとインバージョンを交互に行う。
我々は4つのベンチマークデータセットにアプローチを検証し、最先端の逆攻撃に対する堅牢性を実証する。
論文 参考訳(メタデータ) (2025-10-03T15:18:45Z) - Active Adversarial Noise Suppression for Image Forgery Localization [56.98050814363447]
本稿では、敵騒音の攻撃効果を抑制するために、防御的摂動を発生させる敵騒音抑制モジュール(ANSM)を提案する。
我々の知る限りでは、画像フォージェリローカライゼーションタスクにおける敵対的防御の報告としてはこれが初めてである。
論文 参考訳(メタデータ) (2025-06-15T14:53:27Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - CURE: Concept Unlearning via Orthogonal Representation Editing in Diffusion Models [7.68494752148263]
CUREは、事前訓練された拡散モデルの重み空間で直接動作する、トレーニング不要の概念未学習フレームワークである。
スペクトル消去器は、安全な属性を保持しながら、望ましくない概念に特有の特徴を特定し、分離する。
CUREは、対象とする芸術スタイル、オブジェクト、アイデンティティ、明示的なコンテンツに対して、より効率的で徹底的な除去を実現する。
論文 参考訳(メタデータ) (2025-05-19T03:53:06Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [53.937498564603054]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - Diffusion Models for Adversarial Purification [69.1882221038846]
対人浄化(Adrial purification)とは、生成モデルを用いて敵の摂動を除去する防衛方法の分類である。
そこで我々は,拡散モデルを用いたDiffPureを提案する。
提案手法は,現在の対人訓練および対人浄化方法よりも優れ,最先端の成果を達成する。
論文 参考訳(メタデータ) (2022-05-16T06:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。