論文の概要: STEREO: Towards Adversarially Robust Concept Erasing from Text-to-Image Generation Models
- arxiv url: http://arxiv.org/abs/2408.16807v1
- Date: Thu, 29 Aug 2024 17:29:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 17:18:55.879083
- Title: STEREO: Towards Adversarially Robust Concept Erasing from Text-to-Image Generation Models
- Title(参考訳): sterEO:テキスト・画像生成モデルによる逆ロバスト概念の排除を目指して
- Authors: Koushik Srivatsan, Fahad Shamshad, Muzammal Naseer, Karthik Nandakumar,
- Abstract要約: 2つの異なる段階を含む STEREO という手法を提案する。
第1段階は、CEMから消去された概念を再生できる強力な、多様な敵のプロンプトを徹底的に探索する。
第2段では,1回目で目標概念を確実に消去するアンカー概念に基づく構成目的を導入する。
- 参考スコア(独自算出の注目度): 18.64776777593743
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid proliferation of large-scale text-to-image generation (T2IG) models has led to concerns about their potential misuse in generating harmful content. Though many methods have been proposed for erasing undesired concepts from T2IG models, they only provide a false sense of security, as recent works demonstrate that concept-erased models (CEMs) can be easily deceived to generate the erased concept through adversarial attacks. The problem of adversarially robust concept erasing without significant degradation to model utility (ability to generate benign concepts) remains an unresolved challenge, especially in the white-box setting where the adversary has access to the CEM. To address this gap, we propose an approach called STEREO that involves two distinct stages. The first stage searches thoroughly enough for strong and diverse adversarial prompts that can regenerate an erased concept from a CEM, by leveraging robust optimization principles from adversarial training. In the second robustly erase once stage, we introduce an anchor-concept-based compositional objective to robustly erase the target concept at one go, while attempting to minimize the degradation on model utility. By benchmarking the proposed STEREO approach against four state-of-the-art concept erasure methods under three adversarial attacks, we demonstrate its ability to achieve a better robustness vs. utility trade-off. Our code and models are available at https://github.com/koushiksrivats/robust-concept-erasing.
- Abstract(参考訳): 大規模テキスト・画像生成モデル(T2IG)の急激な普及により、有害なコンテンツの生成における誤用が懸念されている。
T2IGモデルから望ましくない概念を消去するための多くの方法が提案されているが、これは誤ったセキュリティの感覚を与えるだけであり、最近の研究は、概念消去モデル(CEM)が敵攻撃によって消去された概念を容易に認識できることを実証している。
モデルユーティリティ(良質な概念を生成する能力)を著しく劣化させることなく、逆向きに堅牢な概念消去という問題は、特に敵がCEMにアクセス可能なホワイトボックス設定において未解決の課題である。
このギャップに対処するために,2つの異なる段階を含む STEREO という手法を提案する。
第1段階は、敵の訓練から堅牢な最適化原理を活用することで、CEMから消去された概念を再生できる強力な多様な敵のプロンプトを徹底的に探索する。
第2段階では, モデルユーティリティの劣化を最小限に抑えつつ, 目標概念を1回で頑健に消去するアンカー概念に基づく構成目的を導入する。
3つの敵攻撃下での4つの最先端概念消去手法に対して提案したSTEREOアプローチをベンチマークすることにより、実用トレードオフよりも優れたロバスト性を実現する能力を示す。
私たちのコードとモデルはhttps://github.com/koushiksrivats/robust-concept-erasing.comで利用可能です。
関連論文リスト
- Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Pruning for Robust Concept Erasing in Diffusion Models [27.67237515704348]
概念消去のための新しいプルーニングベースの戦略を導入する。
本手法は, 除去対象概念に関連する重要なパラメータを選択的に抽出し, 概念関連ニューロンの感度を低下させる。
実験の結果, 逆入力に抵抗するモデルの能力は著しく向上した。
論文 参考訳(メタデータ) (2024-05-26T11:42:20Z) - MACE: Mass Concept Erasure in Diffusion Models [11.12833789743765]
我々は、マス・コンセプト・エミッションのタスクのための微調整・フレームワークであるMACEを紹介した。
このタスクは、トリガー時に不要な概念を具現化した画像が生成されるのを防ぐことを目的としている。
我々は,4つのタスクにまたがる先行手法に対して,MISを広範囲に評価する。
論文 参考訳(メタデータ) (2024-03-10T08:50:56Z) - Separable Multi-Concept Erasure from Diffusion Models [52.51972530398691]
大規模拡散モデルから安全でない概念を排除するために,分離可能なマルチコンセプト消去器(SepME)を提案する。
後者は最適化可能なモデルウェイトを分離し、各ウェイトインクリメントは特定の概念の消去に対応する。
広範囲にわたる実験は, 概念の排除, モデル性能の保存, 各種概念の消去・回復における柔軟性の確保に, アプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-03T11:10:57Z) - Receler: Reliable Concept Erasing of Text-to-Image Diffusion Models via Lightweight Erasers [24.64639078273091]
テキストから画像への拡散モデルにおける概念消去は、対象概念に関連する画像の生成から事前学習された拡散モデルを無効にすることを目的としている。
軽量エローザ(レセラー)による信頼性概念消去の提案
論文 参考訳(メタデータ) (2023-11-29T15:19:49Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models [79.50701155336198]
textbfForget-Me-Notは、適切に設定されたテキスト・ツー・イメージモデルから、指定されたID、オブジェクト、スタイルを30秒で安全に削除するように設計されている。
我々は,Forget-Me-Notが,モデルの性能を他の概念に保ちながら,ターゲットとなる概念を効果的に排除できることを実証した。
また、Stable Diffusionの軽量モデルパッチとして適応することができ、コンセプト操作と便利な配布を可能にしている。
論文 参考訳(メタデータ) (2023-03-30T17:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。