論文の概要: On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts
- arxiv url: http://arxiv.org/abs/2310.16613v1
- Date: Wed, 25 Oct 2023 13:10:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 13:55:39.154954
- Title: On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts
- Title(参考訳): 良性プロンプトを用いたテキスト・画像モデルからの安全でない画像の能動的生成について
- Authors: Yixin Wu, Ning Yu, Michael Backes, Yun Shen, Yang Zhang,
- Abstract要約: 従来の研究は、操作されたプロンプトがテキスト・ツー・イメージ・モデルを用いて安全でない画像を生成することを実証してきた。
基本攻撃と実用性維持攻撃の2つの毒素攻撃を提案する。
本研究は,実世界のシナリオにおけるテキスト・ツー・イメージ・モデル導入の潜在的なリスクを明らかにするものである。
- 参考スコア(独自算出の注目度): 38.63253101205306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image models like Stable Diffusion have had a profound impact on daily life by enabling the generation of photorealistic images from textual prompts, fostering creativity, and enhancing visual experiences across various applications. However, these models also pose risks. Previous studies have successfully demonstrated that manipulated prompts can elicit text-to-image models to generate unsafe images, e.g., hateful meme variants. Yet, these studies only unleash the harmful power of text-to-image models in a passive manner. In this work, we focus on the proactive generation of unsafe images using targeted benign prompts via poisoning attacks. We propose two poisoning attacks: a basic attack and a utility-preserving attack. We qualitatively and quantitatively evaluate the proposed attacks using four representative hateful memes and multiple query prompts. Experimental results indicate that text-to-image models are vulnerable to the basic attack even with five poisoning samples. However, the poisoning effect can inadvertently spread to non-targeted prompts, leading to undesirable side effects. Root cause analysis identifies conceptual similarity as an important contributing factor to the side effects. To address this, we introduce the utility-preserving attack as a viable mitigation strategy to maintain the attack stealthiness, while ensuring decent attack performance. Our findings underscore the potential risks of adopting text-to-image models in real-world scenarios, calling for future research and safety measures in this space.
- Abstract(参考訳): 安定拡散のようなテキスト・ツー・イメージモデルは、テキストプロンプトからフォトリアリスティックな画像を生成すること、創造性を育み、様々なアプリケーションにおける視覚的体験を向上させることで、日常生活に大きな影響を与えてきた。
しかし、これらのモデルにもリスクが伴う。
従来の研究は、操作されたプロンプトがテキスト・ツー・イメージモデルを使って安全でない画像、たとえば憎しみのあるミームの変種を生成することを実証してきた。
しかし、これらの研究は、テキスト・ツー・イメージモデルの有害な力を受動的に解き放つだけである。
本研究では,標的ベニグインプロンプトを用いた安全でない画像の能動的生成に焦点を当てた。
基本攻撃と実用性維持攻撃の2つの毒素攻撃を提案する。
4つの代表的な憎しみのあるミームと複数のクエリプロンプトを用いて,提案した攻撃を質的,定量的に評価する。
実験結果から, テキスト・ツー・イメージ・モデルでは, 5種類の毒素が検出された場合でも, 基本攻撃に対して脆弱であることが示唆された。
しかし、中毒効果は必然的に非標的のプロンプトに広がり、望ましくない副作用を引き起こす。
根本原因分析は、概念的類似性を副作用の重要な寄与因子として同定する。
そこで本研究では,攻撃性能を良好に保ちつつ,攻撃のステルス性を維持するための対策としてユーティリティ保存攻撃を導入する。
本研究は,実世界のシナリオにテキスト・ツー・イメージ・モデルを採用する可能性について,今後の研究・安全対策の必要性を浮き彫りにしている。
関連論文リスト
- CROPS: Model-Agnostic Training-Free Framework for Safe Image Synthesis with Latent Diffusion Models [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
我々は、NSFW画像を生成する敵攻撃に対して、追加の訓練を必要とせずに容易に防御できるモデルに依存しないフレームワークであるCROPSを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:43:21Z) - When Image Generation Goes Wrong: A Safety Analysis of Stable Diffusion Models [0.0]
本研究では,10種類の安定拡散モデルによる有害画像の生成能力について検討した。
これらのモデルが不適切なコンテンツを生成することによって有害なプロンプトに応答することを示す。
以上の結果から,観察されたモデルでは,拒絶行動や安全対策が完全に欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-11-23T10:42:43Z) - Imperceptible Face Forgery Attack via Adversarial Semantic Mask [59.23247545399068]
本稿では, 対向性, 可視性に優れた対向性例を生成できるASMA(Adversarial Semantic Mask Attack framework)を提案する。
具体的には, 局所的なセマンティック領域の摂動を抑制し, 良好なステルス性を実現する, 対向型セマンティックマスク生成モデルを提案する。
論文 参考訳(メタデータ) (2024-06-16T10:38:11Z) - Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models [58.065255696601604]
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
論文 参考訳(メタデータ) (2024-04-21T16:35:16Z) - Revealing Vulnerabilities in Stable Diffusion via Targeted Attacks [41.531913152661296]
本稿では,安定拡散に対する標的対向攻撃の問題を定式化し,対向的プロンプトを生成するための枠組みを提案する。
具体的には、安定した拡散を誘導し、特定の画像を生成するための信頼性の高い逆プロンプトを構築するために、勾配に基づく埋め込み最適化を設計する。
逆方向のプロンプトを成功させた後、モデルの脆弱性を引き起こすメカニズムを明らかにする。
論文 参考訳(メタデータ) (2024-01-16T12:15:39Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-to-Image Models via Substitution [21.93748586123046]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - Deep Image Destruction: A Comprehensive Study on Vulnerability of Deep
Image-to-Image Models against Adversarial Attacks [104.8737334237993]
本稿では,敵対的攻撃に対する深部画像対画像モデルの脆弱性に関する包括的調査を行う。
一般的な5つの画像処理タスクでは、さまざまな観点から16の深いモデルが分析される。
画像分類タスクとは異なり、画像間タスクの性能劣化は様々な要因によって大きく異なることが示される。
論文 参考訳(メタデータ) (2021-04-30T14:20:33Z) - Adversarial Examples Detection beyond Image Space [88.7651422751216]
摂動と予測信頼の間にはコンプライアンスが存在することが分かり、予測信頼の面から少数の摂動攻撃を検出するための指針となる。
本研究では,画像ストリームが画素アーティファクトに注目し,勾配ストリームが信頼度アーティファクトに対応する2ストリームアーキテクチャによる画像空間を超えた手法を提案する。
論文 参考訳(メタデータ) (2021-02-23T09:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。