論文の概要: AEGIS: Adversarial Target-Guided Retention-Data-Free Robust Concept Erasure from Diffusion Models
- arxiv url: http://arxiv.org/abs/2602.06771v1
- Date: Fri, 06 Feb 2026 15:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.440857
- Title: AEGIS: Adversarial Target-Guided Retention-Data-Free Robust Concept Erasure from Diffusion Models
- Title(参考訳): AEGIS:拡散モデルによる対向的目標誘導保持-データフリーロバスト概念消去
- Authors: Fengpeng Li, Kemou Li, Qizhou Wang, Bo Han, Jiantao Zhou,
- Abstract要約: 概念消去は、拡散モデル(DM)が有害なコンテンツを生成するのを防ぐのに役立ちますが、現在の手法は保持のトレードオフに直面します。
本稿では,頑健性と保持性の両方を向上する保持データフリーフレームワークであるAdversarial Erasure with Gradient Informed Synergy (AEGIS)を紹介する。
- 参考スコア(独自算出の注目度): 36.91937453334139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Concept erasure helps stop diffusion models (DMs) from generating harmful content; but current methods face robustness retention trade off. Robustness means the model fine-tuned by concept erasure methods resists reactivation of erased concepts, even under semantically related prompts. Retention means unrelated concepts are preserved so the model's overall utility stays intact. Both are critical for concept erasure in practice, yet addressing them simultaneously is challenging, as existing works typically improve one factor while sacrificing the other. Prior work typically strengthens one while degrading the other, e.g., mapping a single erased prompt to a fixed safe target leaves class level remnants exploitable by prompt attacks, whereas retention-oriented schemes underperform against adaptive adversaries. This paper introduces Adversarial Erasure with Gradient Informed Synergy (AEGIS), a retention-data-free framework that advances both robustness and retention.
- Abstract(参考訳): 概念消去は、拡散モデル(DM)が有害なコンテンツを生成するのを防ぐのに役立ちます。
ロバスト性とは、概念消去法によって微調整されたモデルが、意味論的に関連するプロンプトの下でも、消去された概念の再活性化に抵抗することを意味する。
保持とは、関係のない概念が保存されることを意味するので、モデル全体のユーティリティはそのままである。
どちらもコンセプトの消去には不可欠だが、既存の作業は一般的に1つの要因を改善し、他方を犠牲にしているため、同時に対処することは難しい。
以前の作業は、例えば、一つの消去されたプロンプトを、プロンプト攻撃によって悪用される固定された安全なターゲットのクラスレベル残基にマッピングする一方で、保持指向のスキームは適応的な敵に対して性能が劣る。
本稿では,頑健性と保持性の両方を向上する保持データフリーフレームワークであるAdversarial Erasure with Gradient Informed Synergy (AEGIS)を紹介する。
関連論文リスト
- SAGE: Exploring the Boundaries of Unsafe Concept Domain with Semantic-Augment Erasing [65.82241040239452]
望ましくない概念に微妙な重みを消去する概念。
既存の方法は、安全でない概念を固定語として扱い、繰り返し消去する。
本稿では,概念語消去を概念ドメイン消去に変換する意味拡張消去について紹介する。
論文 参考訳(メタデータ) (2025-06-11T03:21:24Z) - CURE: Concept Unlearning via Orthogonal Representation Editing in Diffusion Models [7.68494752148263]
CUREは、事前訓練された拡散モデルの重み空間で直接動作する、トレーニング不要の概念未学習フレームワークである。
スペクトル消去器は、安全な属性を保持しながら、望ましくない概念に特有の特徴を特定し、分離する。
CUREは、対象とする芸術スタイル、オブジェクト、アイデンティティ、明示的なコンテンツに対して、より効率的で徹底的な除去を実現する。
論文 参考訳(メタデータ) (2025-05-19T03:53:06Z) - SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models [56.83154571623655]
モデルパラメータを直接編集する効率的な概念消去手法であるSPEEDを導入する。
Speedyは、パラメータ更新がターゲット以外の概念に影響しないモデル編集スペースであるnullスペースを検索する。
たった5秒で100のコンセプトを消去しました。
論文 参考訳(メタデータ) (2025-03-10T14:40:01Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [53.937498564603054]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。