論文の概要: On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts
- arxiv url: http://arxiv.org/abs/2310.16613v1
- Date: Wed, 25 Oct 2023 13:10:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 13:55:39.154954
- Title: On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts
- Title(参考訳): 良性プロンプトを用いたテキスト・画像モデルからの安全でない画像の能動的生成について
- Authors: Yixin Wu, Ning Yu, Michael Backes, Yun Shen, Yang Zhang,
- Abstract要約: 従来の研究は、操作されたプロンプトがテキスト・ツー・イメージ・モデルを用いて安全でない画像を生成することを実証してきた。
基本攻撃と実用性維持攻撃の2つの毒素攻撃を提案する。
本研究は,実世界のシナリオにおけるテキスト・ツー・イメージ・モデル導入の潜在的なリスクを明らかにするものである。
- 参考スコア(独自算出の注目度): 38.63253101205306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image models like Stable Diffusion have had a profound impact on daily life by enabling the generation of photorealistic images from textual prompts, fostering creativity, and enhancing visual experiences across various applications. However, these models also pose risks. Previous studies have successfully demonstrated that manipulated prompts can elicit text-to-image models to generate unsafe images, e.g., hateful meme variants. Yet, these studies only unleash the harmful power of text-to-image models in a passive manner. In this work, we focus on the proactive generation of unsafe images using targeted benign prompts via poisoning attacks. We propose two poisoning attacks: a basic attack and a utility-preserving attack. We qualitatively and quantitatively evaluate the proposed attacks using four representative hateful memes and multiple query prompts. Experimental results indicate that text-to-image models are vulnerable to the basic attack even with five poisoning samples. However, the poisoning effect can inadvertently spread to non-targeted prompts, leading to undesirable side effects. Root cause analysis identifies conceptual similarity as an important contributing factor to the side effects. To address this, we introduce the utility-preserving attack as a viable mitigation strategy to maintain the attack stealthiness, while ensuring decent attack performance. Our findings underscore the potential risks of adopting text-to-image models in real-world scenarios, calling for future research and safety measures in this space.
- Abstract(参考訳): 安定拡散のようなテキスト・ツー・イメージモデルは、テキストプロンプトからフォトリアリスティックな画像を生成すること、創造性を育み、様々なアプリケーションにおける視覚的体験を向上させることで、日常生活に大きな影響を与えてきた。
しかし、これらのモデルにもリスクが伴う。
従来の研究は、操作されたプロンプトがテキスト・ツー・イメージモデルを使って安全でない画像、たとえば憎しみのあるミームの変種を生成することを実証してきた。
しかし、これらの研究は、テキスト・ツー・イメージモデルの有害な力を受動的に解き放つだけである。
本研究では,標的ベニグインプロンプトを用いた安全でない画像の能動的生成に焦点を当てた。
基本攻撃と実用性維持攻撃の2つの毒素攻撃を提案する。
4つの代表的な憎しみのあるミームと複数のクエリプロンプトを用いて,提案した攻撃を質的,定量的に評価する。
実験結果から, テキスト・ツー・イメージ・モデルでは, 5種類の毒素が検出された場合でも, 基本攻撃に対して脆弱であることが示唆された。
しかし、中毒効果は必然的に非標的のプロンプトに広がり、望ましくない副作用を引き起こす。
根本原因分析は、概念的類似性を副作用の重要な寄与因子として同定する。
そこで本研究では,攻撃性能を良好に保ちつつ,攻撃のステルス性を維持するための対策としてユーティリティ保存攻撃を導入する。
本研究は,実世界のシナリオにテキスト・ツー・イメージ・モデルを採用する可能性について,今後の研究・安全対策の必要性を浮き彫りにしている。
関連論文リスト
- Defending Text-to-image Diffusion Models: Surprising Efficacy of Textual Perturbations Against Backdoor Attacks [7.777211995715721]
テキスト間拡散モデルに対する最先端のバックドア攻撃は、驚くほど単純な防御戦略であるテキスト摂動によって効果的に軽減できることを示す。
実験により、テキストによる摂動は、最先端のバックドア攻撃に対する防御に有効であり、生成品質に対する犠牲は最小限であることが示された。
論文 参考訳(メタデータ) (2024-08-28T11:36:43Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models [58.065255696601604]
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
論文 参考訳(メタデータ) (2024-04-21T16:35:16Z) - Object-oriented backdoor attack against image captioning [40.5688859498834]
画像分類タスクに対するバックドア攻撃は広く研究され、成功したことが証明されている。
本稿では,トレーニングデータから画像キャプションモデルへのバックドア攻撃について検討する。
本手法は,画像キャプティングモデルのバックドア攻撃に対する弱点を証明し,画像キャプティング分野におけるバックドア攻撃に対する防御意識を高めることを期待する。
論文 参考訳(メタデータ) (2024-01-05T01:52:13Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Nightshade: Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models [26.301156075883483]
本研究は, 発生モデルにおいて, 毒殺攻撃が有効であることを示す。
我々は、最適化されたプロンプト特異的中毒攻撃であるNightshadeを紹介する。
我々は、Nightshade攻撃がテキスト・ツー・イメージ生成モデルにおける一般的な特徴を不安定にすることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T21:54:10Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-to-Image Models via Substitution [21.93748586123046]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Adversarial Examples Make Strong Poisons [55.63469396785909]
従来は訓練済みのモデルに対する攻撃を意図していた敵の例は,近年の毒殺に特化して設計された手法よりも,データ中毒に有効であることを示す。
また,本手法は,データセットのセキュアなリリースにおいて,既存の中毒法よりも極めて効果的である。
論文 参考訳(メタデータ) (2021-06-21T01:57:14Z) - Deep Image Destruction: A Comprehensive Study on Vulnerability of Deep
Image-to-Image Models against Adversarial Attacks [104.8737334237993]
本稿では,敵対的攻撃に対する深部画像対画像モデルの脆弱性に関する包括的調査を行う。
一般的な5つの画像処理タスクでは、さまざまな観点から16の深いモデルが分析される。
画像分類タスクとは異なり、画像間タスクの性能劣化は様々な要因によって大きく異なることが示される。
論文 参考訳(メタデータ) (2021-04-30T14:20:33Z) - Backdooring and Poisoning Neural Networks with Image-Scaling Attacks [15.807243762876901]
バックドアと毒殺攻撃を隠蔽するための新しい戦略を提案する。
われわれのアプローチは、最近の画像スケーリングに対する攻撃に基づいている。
画像スケーリング攻撃と組み合わせれば,バックドアや中毒も同じように有効であることを示す。
論文 参考訳(メタデータ) (2020-03-19T08:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。