論文の概要: Robust Concept Erasure in Diffusion Models: A Theoretical Perspective on Security and Robustness
- arxiv url: http://arxiv.org/abs/2509.12024v1
- Date: Mon, 15 Sep 2025 15:05:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.359447
- Title: Robust Concept Erasure in Diffusion Models: A Theoretical Perspective on Security and Robustness
- Title(参考訳): 拡散モデルにおけるロバスト概念の消去:セキュリティとロバスト性に関する理論的展望
- Authors: Zixuan Fu, Yan Ren, Finn Carter, Chenyue Wen, Le Ku, Daheng Yu, Emily Davis, Bo Zhang,
- Abstract要約: textbfSCORE (Secure and Concept-Oriented Robust Erasure)は拡散モデルにおけるロバストな概念除去のための新しいフレームワークである。
SCOREは拡散モデルにおける安全で堅牢な概念消去のための新しい標準を定めている。
- 参考スコア(独自算出の注目度): 4.23067546195708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved unprecedented success in image generation but pose increasing risks in terms of privacy, fairness, and security. A growing demand exists to \emph{erase} sensitive or harmful concepts (e.g., NSFW content, private individuals, artistic styles) from these models while preserving their overall generative capabilities. We introduce \textbf{SCORE} (Secure and Concept-Oriented Robust Erasure), a novel framework for robust concept removal in diffusion models. SCORE formulates concept erasure as an \emph{adversarial independence} problem, theoretically guaranteeing that the model's outputs become statistically independent of the erased concept. Unlike prior heuristic methods, SCORE minimizes the mutual information between a target concept and generated outputs, yielding provable erasure guarantees. We provide formal proofs establishing convergence properties and derive upper bounds on residual concept leakage. Empirically, we evaluate SCORE on Stable Diffusion and FLUX across four challenging benchmarks: object erasure, NSFW removal, celebrity face suppression, and artistic style unlearning. SCORE consistently outperforms state-of-the-art methods including EraseAnything, ANT, MACE, ESD, and UCE, achieving up to \textbf{12.5\%} higher erasure efficacy while maintaining comparable or superior image quality. By integrating adversarial optimization, trajectory consistency, and saliency-driven fine-tuning, SCORE sets a new standard for secure and robust concept erasure in diffusion models.
- Abstract(参考訳): 拡散モデルは画像生成において前例のない成功を収めてきたが、プライバシー、公平性、セキュリティの点でリスクが増大している。
これらのモデルから、感情的あるいは有害な概念(例えば、NSFW内容、個人、芸術的スタイル)を、全体的な生成能力を保ちながら、需要が増大する。
本稿では,拡散モデルにおけるロバストな概念除去のための新しいフレームワークである \textbf{SCORE} (Secure and Concept-Oriented Robust Erasure) を紹介する。
SCORE は概念消去を \emph{adversarial independent} 問題として定式化し、理論上モデルの出力が消去された概念から統計的に独立することを保証する。
従来のヒューリスティックな手法とは異なり、SCOREはターゲット概念と生成された出力の間の相互情報を最小化し、証明可能な消去保証を与える。
我々は収束性を確立し、残留概念リークに関する上限を導出する形式的証明を与える。
実験では,物体消去,NSFW除去,有名人の顔抑制,芸術スタイルのアンラーニングの4つの課題に対して,安定拡散とFLUXに関するSCOREを評価した。
SCORE は、EraseAnything, ANT, MACE, ESD, UCE など最先端の手法を一貫して上回り、同等または優れた画像品質を維持しながら、より高い消去効率を達成している。
逆最適化、軌道整合性、および塩分駆動の微調整を統合することにより、SCOREは拡散モデルにおける安全で堅牢な概念消去のための新しい標準を設定できる。
関連論文リスト
- FADE: Adversarial Concept Erasure in Flow Models [4.774890908509861]
テキストから画像への拡散モデルのための新しいtextbfconcept消去法を提案する。
提案手法は,軌道認識型微調整戦略と,その概念を確実に取り除くための対向的目的を組み合わせたものである。
提案手法は, 消去された概念とモデル出力との相互情報を最小化する。
論文 参考訳(メタデータ) (2025-07-16T14:31:21Z) - TRACE: Trajectory-Constrained Concept Erasure in Diffusion Models [0.0]
概念消去は、生成モデルにおいて特定の概念情報を削除または抑制することを目的としている。
Trajectory-Constrained Attentional Concept Erasure (TRACE) は拡散モデルから対象概念を消去する新しい手法である。
TRACEは最先端のパフォーマンスを実現し、ANT、EraseAnything、MACEといった最近の手法よりも、除去効率と出力品質の点で優れています。
論文 参考訳(メタデータ) (2025-05-29T10:15:22Z) - Enhancing Variational Autoencoders with Smooth Robust Latent Encoding [54.74721202894622]
変分オートエンコーダ(VAE)は拡散に基づく生成モデルをスケールアップする上で重要な役割を果たしている。
Smooth Robust Latent VAEは、世代品質とロバスト性の両方を向上する、新しい対向トレーニングフレームワークである。
実験により、SRL-VAEは、Nightshade攻撃や画像編集攻撃に対して、画像再構成とテキスト誘導画像編集において、生成品質とロバスト性の両方を改善することが示された。
論文 参考訳(メタデータ) (2025-04-24T03:17:57Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [45.393001061726366]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - DuMo: Dual Encoder Modulation Network for Precise Concept Erasure [75.05165577219425]
非ターゲット概念に対する最小限の障害を伴う不適切なターゲット概念の正確な消去を実現するDuMo(Dual Encoder Modulation Network)を提案する。
提案手法は, 明示的コンテンツ消去, カートゥーン概念除去, アーティスティックスタイル消去における最先端性能を実現し, 代替手法よりも明らかに優れている。
論文 参考訳(メタデータ) (2025-01-02T07:47:34Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent
Diffusion Model [61.53213964333474]
本稿では,生の画素空間ではなく,潜在空間における非知覚的対角的アイデンティティ摂動を生成できる統一的なフレームワークAdv-Diffusionを提案する。
具体的には,周囲のセマンティックな摂動を生成するために,個人性に敏感な条件付き拡散生成モデルを提案する。
設計された適応強度に基づく対向摂動アルゴリズムは、攻撃の伝達性とステルス性の両方を確保することができる。
論文 参考訳(メタデータ) (2023-12-18T15:25:23Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。