論文の概要: BSPA: Exploring Black-box Stealthy Prompt Attacks against Image
Generators
- arxiv url: http://arxiv.org/abs/2402.15218v1
- Date: Fri, 23 Feb 2024 09:28:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 15:00:31.559342
- Title: BSPA: Exploring Black-box Stealthy Prompt Attacks against Image
Generators
- Title(参考訳): BSPA:画像発生器に対するブラックボックスステルスな攻撃を調査中
- Authors: Yu Tian, Xiao Yang, Yinpeng Dong, Heming Yang, Hang Su, Jun Zhu
- Abstract要約: 大規模な画像生成装置は、様々な分野にわたって大きな変換ポテンシャルを提供する。
いくつかの研究では、イメージジェネレータは特に攻撃を受けやすく、NSFW(Not Fitable For Work)コンテンツを生成することが示されている。
APIユーザからの攻撃をシミュレートするために,レトリバーを採用するブラックボックスステルスシープロンプトアタックを導入する。
- 参考スコア(独自算出の注目度): 43.23698370787517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extremely large image generators offer significant transformative potential
across diverse sectors. It allows users to design specific prompts to generate
realistic images through some black-box APIs. However, some studies reveal that
image generators are notably susceptible to attacks and generate Not Suitable
For Work (NSFW) contents by manually designed toxin texts, especially
imperceptible to human observers. We urgently need a multitude of universal and
transferable prompts to improve the safety of image generators, especially
black-box-released APIs. Nevertheless, they are constrained by labor-intensive
design processes and heavily reliant on the quality of the given instructions.
To achieve this, we introduce a black-box stealthy prompt attack (BSPA) that
adopts a retriever to simulate attacks from API users. It can effectively
harness filter scores to tune the retrieval space of sensitive words for
matching the input prompts, thereby crafting stealthy prompts tailored for
image generators. Significantly, this approach is model-agnostic and requires
no internal access to the model's features, ensuring its applicability to a
wide range of image generators. Building on BSPA, we have constructed an
automated prompt tool and a comprehensive prompt attack dataset (NSFWeval).
Extensive experiments demonstrate that BSPA effectively explores the security
vulnerabilities in a variety of state-of-the-art available black-box models,
including Stable Diffusion XL, Midjourney, and DALL-E 2/3. Furthermore, we
develop a resilient text filter and offer targeted recommendations to ensure
the security of image generators against prompt attacks in the future.
- Abstract(参考訳): 極端に大きな画像生成装置は、様々な分野に大きな変革をもたらす。
ユーザーはブラックボックスAPIを通じてリアルな画像を生成するための特定のプロンプトを設計できる。
しかしながら、画像生成装置は、手動で設計された毒素のテキストによって、特に人間の観察者には受け入れ難い攻撃や不適切な作業(NSFW)のコンテンツを生成することが明らかに示されている。
我々は、画像生成装置、特にブラックボックスリリースAPIの安全性を向上させるために、緊急に多数の普遍的で転送可能なプロンプトが必要である。
それでも労働集約的な設計プロセスに制約されており、与えられた指示の質に大きく依存している。
そこで我々は,APIユーザからの攻撃をシミュレートするためにレトリバーを採用するブラックボックスステルスシープロンプトアタック(BSPA)を導入する。
フィルタスコアを利用して、入力プロンプトにマッチするセンシティブな単語の検索空間を調整し、画像ジェネレータ用に調整されたステルスシープロンプトを作成することができる。
重要なことに、このアプローチはモデルに依存しず、モデルの機能の内部アクセスを必要としないため、幅広い画像生成装置に適用可能である。
BSPAをベースとして,自動プロンプトツールと包括的プロンプトアタックデータセット(NSFWeval)を構築した。
BSPAは、Stable Diffusion XL、Midjourney、DALL-E 2/3など、最先端のさまざまなブラックボックスモデルのセキュリティ脆弱性を効果的に調査している。
さらに,レジリエントなテキストフィルタを開発し,今後,画像生成器のセキュリティを確保するための推奨事項を提供する。
関連論文リスト
- Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
Latent Guardは、テキスト・ツー・画像生成における安全性対策を改善するために設計されたフレームワークである。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダ上に潜伏空間を学習する。
提案するフレームワークは,タスク固有のデータ生成パイプラインで構成されている。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - IMPRESS: Evaluating the Resilience of Imperceptible Perturbations
Against Unauthorized Data Usage in Diffusion-Based Generative AI [52.90082445349903]
拡散ベースの画像生成モデルは、アーティストのスタイルを模倣するアートイメージを作成したり、偽のコンテンツのためにオリジナルの画像を悪意を持って編集することができる。
知覚不能な摂動を追加することによって、元のイメージをそのような不正なデータ使用から保護する試みがいくつかなされている。
本研究では, IMPRESS という浄化摂動プラットフォームを導入し, 非受容性摂動の有効性を保護策として評価する。
論文 参考訳(メタデータ) (2023-10-30T03:33:41Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-To-Image Models via
Substitution [22.882337899780968]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by
Finding Problematic Prompts [68.24640128324778]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - SneakyPrompt: Jailbreaking Text-to-image Generative Models [20.645304189835944]
我々は,最初の自動攻撃フレームワークであるSneakyPromptをジェイルブレイクテキスト画像生成モデルに提案する。
安全フィルタによってブロックされるプロンプトを与えられたSneakyPromptは、テキスト・ツー・イメージ生成モデルを繰り返しクエリし、クエリ結果に基づいてプロンプト内のトークンを戦略的に摂動させ、安全フィルタをバイパスする。
評価の結果,SneakyPromptはNSFW画像の生成に成功しているだけでなく,jailbreakテキスト・画像生成モデルに拡張された場合,既存のテキスト敵攻撃よりも優れていた。
論文 参考訳(メタデータ) (2023-05-20T03:41:45Z) - PTW: Pivotal Tuning Watermarking for Pre-Trained Image Generators [42.0915430715226]
本稿では,事前学習した発電機の透かし手法であるPivotal Tuning Watermarking (PTW)を提案する。
PTWは、ジェネレータの画質を良く保ちながら、既存の方法よりも長いコードを埋め込むことができる。
本研究では,厳密なゲームベースによる堅牢性と非検出性の定義を提案し,適応型ホワイトボックス攻撃に対してウォーターマーキングが堅牢でないことを示す。
論文 参考訳(メタデータ) (2023-04-14T19:44:37Z) - Mask and Restore: Blind Backdoor Defense at Test Time with Masked
Autoencoder [57.739693628523]
Masked AutoEncoder (BDMAE) を用いたブラインドバックドア防御のためのフレームワークを提案する。
BDMAEは、画像構造的類似性とテスト画像とMAE復元の間のラベル整合性を用いて、トークン空間で可能なトリガを検出する。
私たちのアプローチは、モデル復元、パターンのトリガー、画像の良心に盲目です。
論文 参考訳(メタデータ) (2023-03-27T19:23:33Z) - Black-Box Attack against GAN-Generated Image Detector with Contrastive
Perturbation [0.4297070083645049]
GAN生成画像検出器に対する新しいブラックボックス攻撃法を提案する。
エンコーダ・デコーダネットワークに基づく反法学モデルのトレーニングには,新たなコントラスト学習戦略が採用されている。
提案した攻撃は、6つの一般的なGAN上での3つの最先端検出器の精度を効果的に低減する。
論文 参考訳(メタデータ) (2022-11-07T12:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。