論文の概要: STEREO: A Two-Stage Framework for Adversarially Robust Concept Erasing from Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2408.16807v2
- Date: Wed, 02 Apr 2025 03:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 19:59:19.047877
- Title: STEREO: A Two-Stage Framework for Adversarially Robust Concept Erasing from Text-to-Image Diffusion Models
- Title(参考訳): sterEO:テキストと画像の拡散モデルから消去した逆ロバスト概念のための2段階フレームワーク
- Authors: Koushik Srivatsan, Fahad Shamshad, Muzammal Naseer, Vishal M. Patel, Karthik Nandakumar,
- Abstract要約: 大規模テキスト・画像拡散モデル(T2ID)は有害なコンテンツの生成における誤用の可能性について深刻な懸念を提起している。
本稿では,強靭な概念消去のための唯一のステップではなく,敵対的トレーニングを第1ステップとして活用する新しいフレームワークであるSTEREOを提案する。
我々は,7つの最先端概念消去手法に対してSTEREOをベンチマークし,ホワイトボックス攻撃とブラックボックス攻撃の両方に対して優れた堅牢性を示す。
- 参考スコア(独自算出の注目度): 38.597784529580196
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid proliferation of large-scale text-to-image diffusion (T2ID) models has raised serious concerns about their potential misuse in generating harmful content. Although numerous methods have been proposed for erasing undesired concepts from T2ID models, they often provide a false sense of security; concept-erased models (CEMs) can still be manipulated via adversarial attacks to regenerate the erased concept. While a few robust concept erasure methods based on adversarial training have emerged recently, they compromise on utility (generation quality for benign concepts) to achieve robustness and/or remain vulnerable to advanced embedding space attacks. These limitations stem from the failure of robust CEMs to thoroughly search for "blind spots" in the embedding space. To bridge this gap, we propose STEREO, a novel two-stage framework that employs adversarial training as a first step rather than the only step for robust concept erasure. In the first stage, STEREO employs adversarial training as a vulnerability identification mechanism to search thoroughly enough. In the second robustly erase once stage, STEREO introduces an anchor-concept-based compositional objective to robustly erase the target concept in a single fine-tuning stage, while minimizing the degradation of model utility. We benchmark STEREO against seven state-of-the-art concept erasure methods, demonstrating its superior robustness to both white-box and black-box attacks, while largely preserving utility.
- Abstract(参考訳): 大規模テキスト・画像拡散モデル(T2ID)の急速な普及は、有害なコンテンツの生成における誤用の可能性について深刻な懸念を引き起こしている。
T2IDモデルから望ましくない概念を消去するための多くの方法が提案されているが、それらはしばしば誤ったセキュリティの感覚を与える。
敵の訓練に基づくロバストな概念消去手法が最近出現しているが、それらは実用性(良質な概念の世代的品質)を妥協し、堅牢性を達成するか、先進的な埋め込みスペースアタックに弱いままである。
これらの制限は、埋め込み空間における「盲点」を徹底的に探索する堅牢なCEMの失敗に起因している。
このギャップを埋めるために,敵対的トレーニングを第1ステップとして活用する新しい2段階フレームワークであるSTEREOを提案する。
第1段階では、STEREOは敵の訓練を脆弱性識別メカニズムとして採用し、徹底的に探索する。
第2段階では, STEREOは, モデルユーティリティの劣化を最小限に抑えつつ, 目標概念を単一微調整段階において堅牢に消去する, アンカー概念に基づく構成目的を導入する。
我々は7つの最先端の概念消去手法に対してSTEREOをベンチマークし、白箱攻撃と黒箱攻撃の両方に優れた堅牢性を示すが、大半は実用性は保たれている。
関連論文リスト
- Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models [56.35484513848296]
FADE(Fine grained Attenuation for Diffusion Erasure)は、テキストから画像への生成モデルのための非学習アルゴリズムである。
関連する概念に最小限の影響で目標概念を排除し、最先端の手法よりも保持性能が12%向上した。
論文 参考訳(メタデータ) (2025-03-25T15:49:48Z) - CRCE: Coreference-Retention Concept Erasure in Text-to-Image Diffusion Models [19.074434401274285]
本稿では,新しい概念消去フレームワークCRCEを紹介する。
コアフェルデンシャルと保持概念を意味的に明示的にモデル化することにより、CRCEはより正確な概念除去を可能にする。
実験により、CRCEは様々な消去タスクにおいて既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-03-18T13:09:01Z) - Sparse Autoencoder as a Zero-Shot Classifier for Concept Erasing in Text-to-Image Diffusion Models [24.15603438969762]
Interpret then Deactivate (ItD) は、T2I拡散モデルにおける正確な概念除去を可能にする新しいフレームワークである。
ItDはスパースオートエンコーダを使用して、各概念を複数の機能の組み合わせとして解釈する。
さらなるトレーニングを必要とせずに、簡単に複数の概念を消去できる。
論文 参考訳(メタデータ) (2025-03-12T14:46:40Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Pruning for Robust Concept Erasing in Diffusion Models [27.67237515704348]
概念消去のための新しいプルーニングベースの戦略を導入する。
本手法は, 除去対象概念に関連する重要なパラメータを選択的に抽出し, 概念関連ニューロンの感度を低下させる。
実験の結果, 逆入力に抵抗するモデルの能力は著しく向上した。
論文 参考訳(メタデータ) (2024-05-26T11:42:20Z) - R.A.C.E.: Robust Adversarial Concept Erasure for Secure Text-to-Image Diffusion Model [31.2030795154036]
textbfRobust textbfAdrial textbfConcept textbfErase (RACE)は、これらのリスクを軽減するために設計された新しいアプローチである。
RACEは高度な対向訓練フレームワークを使用して、対向テキストの埋め込みを識別し緩和する。
本評価は,白箱攻撃と黒箱攻撃の双方に対して,RASの有効性を示すものである。
論文 参考訳(メタデータ) (2024-05-25T19:56:01Z) - MACE: Mass Concept Erasure in Diffusion Models [11.12833789743765]
我々は、マス・コンセプト・エミッションのタスクのための微調整・フレームワークであるMACEを紹介した。
このタスクは、トリガー時に不要な概念を具現化した画像が生成されるのを防ぐことを目的としている。
我々は,4つのタスクにまたがる先行手法に対して,MISを広範囲に評価する。
論文 参考訳(メタデータ) (2024-03-10T08:50:56Z) - Separable Multi-Concept Erasure from Diffusion Models [52.51972530398691]
大規模拡散モデルから安全でない概念を排除するために,分離可能なマルチコンセプト消去器(SepME)を提案する。
後者は最適化可能なモデルウェイトを分離し、各ウェイトインクリメントは特定の概念の消去に対応する。
広範囲にわたる実験は, 概念の排除, モデル性能の保存, 各種概念の消去・回復における柔軟性の確保に, アプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-03T11:10:57Z) - Receler: Reliable Concept Erasing of Text-to-Image Diffusion Models via Lightweight Erasers [24.64639078273091]
テキストから画像への拡散モデルにおける概念消去は、対象概念に関連する画像の生成から事前学習された拡散モデルを無効にすることを目的としている。
軽量エローザ(レセラー)による信頼性概念消去の提案
論文 参考訳(メタデータ) (2023-11-29T15:19:49Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models [79.50701155336198]
textbfForget-Me-Notは、適切に設定されたテキスト・ツー・イメージモデルから、指定されたID、オブジェクト、スタイルを30秒で安全に削除するように設計されている。
我々は,Forget-Me-Notが,モデルの性能を他の概念に保ちながら,ターゲットとなる概念を効果的に排除できることを実証した。
また、Stable Diffusionの軽量モデルパッチとして適応することができ、コンセプト操作と便利な配布を可能にしている。
論文 参考訳(メタデータ) (2023-03-30T17:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。