論文の概要: Buster: Incorporating Backdoor Attacks into Text Encoder to Mitigate NSFW Content Generation
- arxiv url: http://arxiv.org/abs/2412.07249v1
- Date: Tue, 10 Dec 2024 07:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:39:34.366636
- Title: Buster: Incorporating Backdoor Attacks into Text Encoder to Mitigate NSFW Content Generation
- Title(参考訳): Buster: NSFWコンテンツ生成を緩和するテキストエンコーダにバックドアアタックを組み込む
- Authors: Xin Zhao, Xiaojun Chen, Yuexin Xuan, Zhendong Zhao,
- Abstract要約: 驚くべきことに、Busterはテキスト・ツー・イメージモデルのテキストエンコーダをわずか5分で微調整し、高い効率性を示している。
実験の結果,Busterは他のベースラインよりも優れ,NSFWコンテンツ除去率に優れていた。
- 参考スコア(独自算出の注目度): 7.486145967788093
- License:
- Abstract: In the digital age, the proliferation of deep learning models has led to significant concerns about the generation of Not Safe for Work (NSFW) content. Existing defense methods primarily involve model fine-tuning and post-hoc content moderation. However, these approaches often lack scalability in eliminating harmful content, degrade the quality of benign image generation, or incur high inference costs. To tackle these challenges, we propose an innovative framework called \textbf{Buster}, which injects backdoor attacks into the text encoder to prevent NSFW content generation. Specifically, Buster leverages deep semantic information rather than explicit prompts as triggers, redirecting NSFW prompts towards targeted benign prompts. This approach demonstrates exceptional resilience and scalability in mitigating NSFW content. Remarkably, Buster fine-tunes the text encoder of Text-to-Image models within just five minutes, showcasing high efficiency. Our extensive experiments reveal that Buster outperforms all other baselines, achieving superior NSFW content removal rate while preserving the quality of harmless images.
- Abstract(参考訳): デジタル時代において、ディープラーニングモデルの普及は、NSFW(Not Safe for Work)コンテンツの生成に重大な懸念をもたらしている。
既存の防御方法は、主にモデル微調整とポストホックコンテンツモデレーションを含む。
しかしながら、これらのアプローチは、有害なコンテンツを排除したり、良質な画像生成の品質を低下させたり、高い推論コストを発生させるスケーラビリティに欠けることが多い。
これらの課題に対処するために,テキストエンコーダにバックドアアタックを注入してNSFWコンテンツ生成を防止する,‘textbf{Buster}’という革新的なフレームワークを提案する。
具体的には、Busterは明示的なプロンプトをトリガーとしてではなく、深いセマンティック情報を活用し、NSFWプロンプトをターゲットの良性プロンプトにリダイレクトする。
このアプローチは、NSFWコンテンツの緩和において、例外的なレジリエンスとスケーラビリティを示す。
驚くべきことに、Busterはテキスト・ツー・イメージモデルのテキストエンコーダをわずか5分で微調整し、高い効率性を示している。
広範にわたる実験により,バスターは他の全てのベースラインよりも優れており,無害画像の品質を維持しつつ,優れたNSFWコンテンツ除去率を実現していることがわかった。
関連論文リスト
- Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images [5.150015329535525]
我々は、画像内に埋め込まれたNSFWテキストの生成という、新たな脅威を識別する。
これには侮辱、人種的暴行、性的暴行といった攻撃的な言葉が含まれる。
既存の緩和技術は、テキスト生成を著しく劣化させながら有害なテキスト生成を防ぐことができない。
この領域の研究を進めるために、画像中のNSFWテキスト生成を評価するためのオープンソースのベンチマークであるToxicBenchを紹介する。
論文 参考訳(メタデータ) (2025-02-07T16:39:39Z) - Distorting Embedding Space for Safety: A Defense Mechanism for Adversarially Robust Diffusion Models [4.5656369638728656]
Distorting Embedding Space (DES) はテキストエンコーダベースの防御機構である。
DESは、アンセーフプロンプトを用いてテキストエンコーダから抽出されたアンセーフな埋め込みを、慎重に計算された安全な埋め込み領域に変換する。
DESはまた、敵攻撃に対する堅牢性を高めるために、中立的な埋め込みと整列することで、即時ヌードを用いて抽出されたヌード埋め込みを中和する。
論文 参考訳(メタデータ) (2025-01-31T04:14:05Z) - CROPS: Model-Agnostic Training-Free Framework for Safe Image Synthesis with Latent Diffusion Models [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
我々は、NSFW画像を生成する敵攻撃に対して、追加の訓練を必要とせずに容易に防御できるモデルに依存しないフレームワークであるCROPSを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:43:21Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。
安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。
我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation [65.30207993362595]
安全な生成のための学習/編集に基づく手法は、モデルから有害な概念を取り除くが、いくつかの課題に直面している。
安全なT2IとT2VのためのトレーニングフリーアプローチであるSAFREEを提案する。
テキスト埋め込み空間における有毒な概念の集合に対応する部分空間を検出し、この部分空間から直ちに埋め込みを行う。
論文 参考訳(メタデータ) (2024-10-16T17:32:23Z) - ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。
我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。
本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文 参考訳(メタデータ) (2024-10-04T19:37:56Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models [28.23494821842336]
テキスト・ツー・イメージ・モデルは、安全でない作業用コンテンツ(NSFW)を生成するために騙されることがある。
我々は、テキスト・ツー・イメージ・モデルによる性的コンテンツ生成を緩和するフレームワークであるSafeGenを紹介する。
論文 参考訳(メタデータ) (2024-04-10T00:26:08Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models [79.50701155336198]
textbfForget-Me-Notは、適切に設定されたテキスト・ツー・イメージモデルから、指定されたID、オブジェクト、スタイルを30秒で安全に削除するように設計されている。
我々は,Forget-Me-Notが,モデルの性能を他の概念に保ちながら,ターゲットとなる概念を効果的に排除できることを実証した。
また、Stable Diffusionの軽量モデルパッチとして適応することができ、コンセプト操作と便利な配布を可能にしている。
論文 参考訳(メタデータ) (2023-03-30T17:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。