論文の概要: FADE: Adversarial Concept Erasure in Flow Models
- arxiv url: http://arxiv.org/abs/2507.12283v1
- Date: Wed, 16 Jul 2025 14:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.428694
- Title: FADE: Adversarial Concept Erasure in Flow Models
- Title(参考訳): FADE: フローモデルにおける逆の概念消去
- Authors: Zixuan Fu, Yan Ren, Finn Carter, Chenyue Wang, Ze Niu, Dacheng Yu, Emily Davis, Bo Zhang,
- Abstract要約: テキストから画像への拡散モデルのための新しいtextbfconcept消去法を提案する。
提案手法は,軌道認識型微調整戦略と,その概念を確実に取り除くための対向的目的を組み合わせたものである。
提案手法は, 消去された概念とモデル出力との相互情報を最小化する。
- 参考スコア(独自算出の注目度): 4.774890908509861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated remarkable image generation capabilities, but also pose risks in privacy and fairness by memorizing sensitive concepts or perpetuating biases. We propose a novel \textbf{concept erasure} method for text-to-image diffusion models, designed to remove specified concepts (e.g., a private individual or a harmful stereotype) from the model's generative repertoire. Our method, termed \textbf{FADE} (Fair Adversarial Diffusion Erasure), combines a trajectory-aware fine-tuning strategy with an adversarial objective to ensure the concept is reliably removed while preserving overall model fidelity. Theoretically, we prove a formal guarantee that our approach minimizes the mutual information between the erased concept and the model's outputs, ensuring privacy and fairness. Empirically, we evaluate FADE on Stable Diffusion and FLUX, using benchmarks from prior work (e.g., object, celebrity, explicit content, and style erasure tasks from MACE). FADE achieves state-of-the-art concept removal performance, surpassing recent baselines like ESD, UCE, MACE, and ANT in terms of removal efficacy and image quality. Notably, FADE improves the harmonic mean of concept removal and fidelity by 5--10\% over the best prior method. We also conduct an ablation study to validate each component of FADE, confirming that our adversarial and trajectory-preserving objectives each contribute to its superior performance. Our work sets a new standard for safe and fair generative modeling by unlearning specified concepts without retraining from scratch.
- Abstract(参考訳): 拡散モデルは、顕著な画像生成能力を示してきたが、繊細な概念を記憶したり、バイアスを持続させることで、プライバシーと公正性にリスクをもたらす。
本稿では,テキスト・ツー・イメージの拡散モデルに対して,特定の概念(例えば,個人や有害なステレオタイプ)をモデル生成レパートリーから取り除くための,新しい「textbf{concept erasure}」手法を提案する。
提案手法は, トラジェクトリを意識した微調整戦略と, モデル忠実度を保ちながら, 概念を確実に除去する目的とを組み合わさったものである。
理論的には、我々のアプローチが消去された概念とモデルの出力の相互情報を最小化し、プライバシーと公正性を確保することを正式に保証する。
実験では、従来の作業(例えば、オブジェクト、有名人、明示的なコンテンツ、MACEのスタイル消去タスクなど)のベンチマークを用いて、安定拡散およびFLUX上のFADEを評価する。
FADEは最先端のコンセプト削除性能を実現し、削除効率と画質の面で、ESD、UCE、MACE、ANTといった最近のベースラインを超えている。
特に、FADEは、最高の先行手法よりも、概念除去と忠実性の調和平均を5~10倍改善する。
また,FADEの各成分を検証するためのアブレーション研究を行い,我々の対向的および軌道保存的目的がそれぞれ優れた性能に寄与していることを確認した。
我々の研究は、スクラッチから再学習することなく、特定の概念を未学習にすることで、安全で公正な生成モデリングのための新しい標準を定めている。
関連論文リスト
- TRACE: Trajectory-Constrained Concept Erasure in Diffusion Models [0.0]
概念消去は、生成モデルにおいて特定の概念情報を削除または抑制することを目的としている。
Trajectory-Constrained Attentional Concept Erasure (TRACE) は拡散モデルから対象概念を消去する新しい手法である。
TRACEは最先端のパフォーマンスを実現し、ANT、EraseAnything、MACEといった最近の手法よりも、除去効率と出力品質の点で優れています。
論文 参考訳(メタデータ) (2025-05-29T10:15:22Z) - ACE: Attentional Concept Erasure in Diffusion Models [0.0]
Attentional Concept Erasureは、クローズドフォームのアテンション操作と軽量な微調整を統合している。
ACEは最先端の概念の除去とロバスト性を実現する。
従来の方法と比較して、ACEは一般性(概念と関連する用語)と特異性(無関係なコンテンツを保存する)のバランスが良い。
論文 参考訳(メタデータ) (2025-04-16T08:16:28Z) - Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models [56.35484513848296]
FADE(Fine grained Attenuation for Diffusion Erasure)は、テキストから画像への生成モデルのための非学習アルゴリズムである。
関連する概念に最小限の影響で目標概念を排除し、最先端の手法よりも保持性能が12%向上した。
論文 参考訳(メタデータ) (2025-03-25T15:49:48Z) - Continual Unlearning for Foundational Text-to-Image Models without Generalization Erosion [56.35484513848296]
本研究は,基本生成モデルから複数の特定の概念を対象とする除去を可能にする新しいパラダイムである連続的アンラーニングを導入する。
本稿では,望ましくない概念の生成を選択的に解き放つような一般化エロージョン(DUGE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-17T23:17:16Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [45.393001061726366]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - DuMo: Dual Encoder Modulation Network for Precise Concept Erasure [75.05165577219425]
非ターゲット概念に対する最小限の障害を伴う不適切なターゲット概念の正確な消去を実現するDuMo(Dual Encoder Modulation Network)を提案する。
提案手法は, 明示的コンテンツ消去, カートゥーン概念除去, アーティスティックスタイル消去における最先端性能を実現し, 代替手法よりも明らかに優れている。
論文 参考訳(メタデータ) (2025-01-02T07:47:34Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。