論文の概要: CGCE: Classifier-Guided Concept Erasure in Generative Models
- arxiv url: http://arxiv.org/abs/2511.05865v1
- Date: Sat, 08 Nov 2025 05:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.623603
- Title: CGCE: Classifier-Guided Concept Erasure in Generative Models
- Title(参考訳): CGCE:ジェネレーティブモデルにおけるクラシファイアガイドによる概念消去
- Authors: Viet Nguyen, Vishal M. Patel,
- Abstract要約: 概念消去は、事前訓練されたモデルから望ましくない概念を取り除くために開発された。
既存の方法は、削除されたコンテンツを再生できる敵攻撃に弱いままである。
多様な生成モデルに対して堅牢な概念消去を提供する効率的なプラグアンドプレイフレームワークを提案する。
- 参考スコア(独自算出の注目度): 53.7410000675294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large-scale generative models have enabled the creation of high-quality images and videos, but have also raised significant safety concerns regarding the generation of unsafe content. To mitigate this, concept erasure methods have been developed to remove undesirable concepts from pre-trained models. However, existing methods remain vulnerable to adversarial attacks that can regenerate the erased content. Moreover, achieving robust erasure often degrades the model's generative quality for safe, unrelated concepts, creating a difficult trade-off between safety and performance. To address this challenge, we introduce Classifier-Guided Concept Erasure (CGCE), an efficient plug-and-play framework that provides robust concept erasure for diverse generative models without altering their original weights. CGCE uses a lightweight classifier operating on text embeddings to first detect and then refine prompts containing undesired concepts. This approach is highly scalable, allowing for multi-concept erasure by aggregating guidance from several classifiers. By modifying only unsafe embeddings at inference time, our method prevents harmful content generation while preserving the model's original quality on benign prompts. Extensive experiments show that CGCE achieves state-of-the-art robustness against a wide range of red-teaming attacks. Our approach also maintains high generative utility, demonstrating a superior balance between safety and performance. We showcase the versatility of CGCE through its successful application to various modern T2I and T2V models, establishing it as a practical and effective solution for safe generative AI.
- Abstract(参考訳): 近年の大規模生成モデルの進歩により、高品質な画像やビデオの作成が可能になったが、安全でないコンテンツの生成に関する重大な安全上の懸念も持ち上がっている。
これを軽減するために、事前学習されたモデルから望ましくない概念を取り除くために概念消去法が開発された。
しかし、既存の手法は、削除されたコンテンツを再生できる敵攻撃に弱いままである。
さらに、ロバスト消去を達成することは、安全で無関係な概念のためにモデルの生成品質を劣化させ、安全性と性能のトレードオフを難しくする。
この課題に対処するために,我々は,多様な生成モデルに対して,元の重みを変更することなく堅牢な概念消去を実現する,効率的なプラグアンドプレイフレームワークであるCGCE(Classifier-Guided Concept Erasure)を導入する。
CGCEはテキスト埋め込みで動作する軽量の分類器を使用して、まず望ましくない概念を含むプロンプトを検出し、洗練する。
このアプローチは非常にスケーラブルで、複数の分類器からのガイダンスを集約することで、マルチコンセプトの消去を可能にする。
提案手法は,不安全な埋め込みのみを推論時に修正することにより,モデル本来の品質を良質なプロンプトに保ちながら有害なコンテンツ生成を防止する。
大規模な実験により、CGCEは幅広いレッドチーム攻撃に対して最先端のロバスト性を達成することが示された。
弊社のアプローチは、高い生成性を維持し、安全性と性能のバランスが優れていることを証明している。
我々は、CGCEの汎用性を、様々な現代的なT2IおよびT2Vモデルに適用し、安全な生成AIのための実用的で効果的なソリューションとして確立する。
関連論文リスト
- Robust Concept Erasure in Diffusion Models: A Theoretical Perspective on Security and Robustness [4.23067546195708]
textbfSCORE (Secure and Concept-Oriented Robust Erasure)は拡散モデルにおけるロバストな概念除去のための新しいフレームワークである。
SCOREは拡散モデルにおける安全で堅牢な概念消去のための新しい標準を定めている。
論文 参考訳(メタデータ) (2025-09-15T15:05:50Z) - GIFT: Gradient-aware Immunization of diffusion models against malicious Fine-Tuning with safe concepts retention [5.429335132446078]
GIFT: 拡散モデルを守るグラディエント対応免疫技術。
論文 参考訳(メタデータ) (2025-07-18T01:47:07Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。