論文の概要: BSPA: Exploring Black-box Stealthy Prompt Attacks against Image
Generators
- arxiv url: http://arxiv.org/abs/2402.15218v1
- Date: Fri, 23 Feb 2024 09:28:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 15:00:31.559342
- Title: BSPA: Exploring Black-box Stealthy Prompt Attacks against Image
Generators
- Title(参考訳): BSPA:画像発生器に対するブラックボックスステルスな攻撃を調査中
- Authors: Yu Tian, Xiao Yang, Yinpeng Dong, Heming Yang, Hang Su, Jun Zhu
- Abstract要約: 大規模な画像生成装置は、様々な分野にわたって大きな変換ポテンシャルを提供する。
いくつかの研究では、イメージジェネレータは特に攻撃を受けやすく、NSFW(Not Fitable For Work)コンテンツを生成することが示されている。
APIユーザからの攻撃をシミュレートするために,レトリバーを採用するブラックボックスステルスシープロンプトアタックを導入する。
- 参考スコア(独自算出の注目度): 43.23698370787517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extremely large image generators offer significant transformative potential
across diverse sectors. It allows users to design specific prompts to generate
realistic images through some black-box APIs. However, some studies reveal that
image generators are notably susceptible to attacks and generate Not Suitable
For Work (NSFW) contents by manually designed toxin texts, especially
imperceptible to human observers. We urgently need a multitude of universal and
transferable prompts to improve the safety of image generators, especially
black-box-released APIs. Nevertheless, they are constrained by labor-intensive
design processes and heavily reliant on the quality of the given instructions.
To achieve this, we introduce a black-box stealthy prompt attack (BSPA) that
adopts a retriever to simulate attacks from API users. It can effectively
harness filter scores to tune the retrieval space of sensitive words for
matching the input prompts, thereby crafting stealthy prompts tailored for
image generators. Significantly, this approach is model-agnostic and requires
no internal access to the model's features, ensuring its applicability to a
wide range of image generators. Building on BSPA, we have constructed an
automated prompt tool and a comprehensive prompt attack dataset (NSFWeval).
Extensive experiments demonstrate that BSPA effectively explores the security
vulnerabilities in a variety of state-of-the-art available black-box models,
including Stable Diffusion XL, Midjourney, and DALL-E 2/3. Furthermore, we
develop a resilient text filter and offer targeted recommendations to ensure
the security of image generators against prompt attacks in the future.
- Abstract(参考訳): 極端に大きな画像生成装置は、様々な分野に大きな変革をもたらす。
ユーザーはブラックボックスAPIを通じてリアルな画像を生成するための特定のプロンプトを設計できる。
しかしながら、画像生成装置は、手動で設計された毒素のテキストによって、特に人間の観察者には受け入れ難い攻撃や不適切な作業(NSFW)のコンテンツを生成することが明らかに示されている。
我々は、画像生成装置、特にブラックボックスリリースAPIの安全性を向上させるために、緊急に多数の普遍的で転送可能なプロンプトが必要である。
それでも労働集約的な設計プロセスに制約されており、与えられた指示の質に大きく依存している。
そこで我々は,APIユーザからの攻撃をシミュレートするためにレトリバーを採用するブラックボックスステルスシープロンプトアタック(BSPA)を導入する。
フィルタスコアを利用して、入力プロンプトにマッチするセンシティブな単語の検索空間を調整し、画像ジェネレータ用に調整されたステルスシープロンプトを作成することができる。
重要なことに、このアプローチはモデルに依存しず、モデルの機能の内部アクセスを必要としないため、幅広い画像生成装置に適用可能である。
BSPAをベースとして,自動プロンプトツールと包括的プロンプトアタックデータセット(NSFWeval)を構築した。
BSPAは、Stable Diffusion XL、Midjourney、DALL-E 2/3など、最先端のさまざまなブラックボックスモデルのセキュリティ脆弱性を効果的に調査している。
さらに,レジリエントなテキストフィルタを開発し,今後,画像生成器のセキュリティを確保するための推奨事項を提供する。
関連論文リスト
- AdvI2I: Adversarial Image Attack on Image-to-Image Diffusion models [20.37481116837779]
AdvI2Iは、入力画像を操作して拡散モデルを誘導し、NSFWコンテンツを生成する新しいフレームワークである。
ジェネレータを最適化して敵画像を作成することで、AdvI2Iは既存の防御機構を回避できる。
本稿では,AdvI2IとAdvI2I-Adaptiveの両方が,現行の安全対策を効果的に回避可能であることを示す。
論文 参考訳(メタデータ) (2024-10-28T19:15:06Z) - Chain-of-Jailbreak Attack for Image Generation Models via Editing Step by Step [62.82566977845765]
ステップバイステップの編集プロセスを通じて画像生成モデルを損なう、Chain-of-Jailbreak (CoJ)アタックと呼ばれる新しいジェイルブレイク手法を提案する。
我々のCoJ攻撃手法は、60%以上のケースでモデルの保護を回避できる。
また,効果的なプロンプトベース手法であるThink Twice Promptingを提案する。
論文 参考訳(メタデータ) (2024-10-04T19:04:43Z) - Multimodal Pragmatic Jailbreak on Text-to-image Models [43.67831238116829]
この研究は、新しいタイプのjailbreakを導入し、T2Iモデルをトリガーして、ビジュアルテキストで画像を生成する。
2つのオープンソース商用モデルを含む9つの代表的なT2Iモデルをベンチマークする。
テストされたすべてのモデルはこの種のジェイルブレイクに悩まされており、安全でない世代の割合は8%から74%である。
論文 参考訳(メタデータ) (2024-09-27T21:23:46Z) - RT-Attack: Jailbreaking Text-to-Image Models via Random Token [24.61198605177661]
ランダム検索を利用した2段階のクエリベースのブラックボックスアタック手法を提案する。
第1段階では、敵と標的の有害なプロンプト間の意味的類似性を最大化することにより、予備的なプロンプトを確立する。
第2段階では、この初期プロンプトを使用してアプローチを洗練し、脱獄を目的とした詳細な敵対的プロンプトを作成します。
論文 参考訳(メタデータ) (2024-08-25T17:33:40Z) - EIUP: A Training-Free Approach to Erase Non-Compliant Concepts Conditioned on Implicit Unsafe Prompts [32.590822043053734]
非有毒なテキストは、暗黙の安全でないプロンプトと呼ばれる非準拠のイメージを生成するリスクを伴っている。
我々は、非準拠の概念を消去プロンプトに組み込む、単純で効果的なアプローチを提案する。
本手法は,画像の忠実度を高いスコアで評価しながら,優れた消去効果を示す。
論文 参考訳(メタデータ) (2024-08-02T05:17:14Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-to-Image Models via Substitution [21.93748586123046]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - Mask and Restore: Blind Backdoor Defense at Test Time with Masked
Autoencoder [57.739693628523]
Masked AutoEncoder (BDMAE) を用いたブラインドバックドア防御のためのフレームワークを提案する。
BDMAEは、画像構造的類似性とテスト画像とMAE復元の間のラベル整合性を用いて、トークン空間で可能なトリガを検出する。
私たちのアプローチは、モデル復元、パターンのトリガー、画像の良心に盲目です。
論文 参考訳(メタデータ) (2023-03-27T19:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。