Fugu-MT 論文翻訳(概要): BSPA: Exploring Black-box Stealthy Prompt Attacks against Image Generators

論文の概要: BSPA: Exploring Black-box Stealthy Prompt Attacks against Image Generators

arxiv url: http://arxiv.org/abs/2402.15218v1
Date: Fri, 23 Feb 2024 09:28:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 15:00:31.559342
Title: BSPA: Exploring Black-box Stealthy Prompt Attacks against Image Generators
Title（参考訳）: BSPA:画像発生器に対するブラックボックスステルスな攻撃を調査中
Authors: Yu Tian, Xiao Yang, Yinpeng Dong, Heming Yang, Hang Su, Jun Zhu
Abstract要約: 大規模な画像生成装置は、様々な分野にわたって大きな変換ポテンシャルを提供する。いくつかの研究では、イメージジェネレータは特に攻撃を受けやすく、NSFW(Not Fitable For Work)コンテンツを生成することが示されている。 APIユーザからの攻撃をシミュレートするために,レトリバーを採用するブラックボックスステルスシープロンプトアタックを導入する。
参考スコア（独自算出の注目度）: 43.23698370787517
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Extremely large image generators offer significant transformative potential across diverse sectors. It allows users to design specific prompts to generate realistic images through some black-box APIs. However, some studies reveal that image generators are notably susceptible to attacks and generate Not Suitable For Work (NSFW) contents by manually designed toxin texts, especially imperceptible to human observers. We urgently need a multitude of universal and transferable prompts to improve the safety of image generators, especially black-box-released APIs. Nevertheless, they are constrained by labor-intensive design processes and heavily reliant on the quality of the given instructions. To achieve this, we introduce a black-box stealthy prompt attack (BSPA) that adopts a retriever to simulate attacks from API users. It can effectively harness filter scores to tune the retrieval space of sensitive words for matching the input prompts, thereby crafting stealthy prompts tailored for image generators. Significantly, this approach is model-agnostic and requires no internal access to the model's features, ensuring its applicability to a wide range of image generators. Building on BSPA, we have constructed an automated prompt tool and a comprehensive prompt attack dataset (NSFWeval). Extensive experiments demonstrate that BSPA effectively explores the security vulnerabilities in a variety of state-of-the-art available black-box models, including Stable Diffusion XL, Midjourney, and DALL-E 2/3. Furthermore, we develop a resilient text filter and offer targeted recommendations to ensure the security of image generators against prompt attacks in the future.
Abstract（参考訳）: 極端に大きな画像生成装置は、様々な分野に大きな変革をもたらす。ユーザーはブラックボックスAPIを通じてリアルな画像を生成するための特定のプロンプトを設計できる。しかしながら、画像生成装置は、手動で設計された毒素のテキストによって、特に人間の観察者には受け入れ難い攻撃や不適切な作業(NSFW)のコンテンツを生成することが明らかに示されている。我々は、画像生成装置、特にブラックボックスリリースAPIの安全性を向上させるために、緊急に多数の普遍的で転送可能なプロンプトが必要である。それでも労働集約的な設計プロセスに制約されており、与えられた指示の質に大きく依存している。そこで我々は,APIユーザからの攻撃をシミュレートするためにレトリバーを採用するブラックボックスステルスシープロンプトアタック(BSPA)を導入する。フィルタスコアを利用して、入力プロンプトにマッチするセンシティブな単語の検索空間を調整し、画像ジェネレータ用に調整されたステルスシープロンプトを作成することができる。重要なことに、このアプローチはモデルに依存しず、モデルの機能の内部アクセスを必要としないため、幅広い画像生成装置に適用可能である。 BSPAをベースとして,自動プロンプトツールと包括的プロンプトアタックデータセット(NSFWeval)を構築した。 BSPAは、Stable Diffusion XL、Midjourney、DALL-E 2/3など、最先端のさまざまなブラックボックスモデルのセキュリティ脆弱性を効果的に調査している。さらに,レジリエントなテキストフィルタを開発し,今後,画像生成器のセキュリティを確保するための推奨事項を提供する。

関連論文リスト

GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文参考訳（メタデータ） (2025-06-11T09:09:12Z)
Transferable Adversarial Attacks on Black-Box Vision-Language Models [63.22532779621001]
敵対的攻撃は、テキストのみのコンテキストとビジョンのみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行することができる。攻撃者は、特定の攻撃者による視覚情報の解釈を誘導するために、摂動を作れます。普遍的な摂動 -- 広い範囲のイメージに適用可能な修正 -- は、これらの誤解釈を一貫して引き起こすことを発見した。
論文参考訳（メタデータ） (2025-05-02T06:51:11Z)
Towards Safe Synthetic Image Generation On the Web: A Multimodal Robust NSFW Defense and Million Scale Dataset [20.758637391023345]
安全かつNSFWなテキストとイメージを区別するためにマルチモーダルディフェンスが開発された。我々のモデルは精度とリコールの観点から既存のSOTA NSFW検出手法に対して良好に機能する。
論文参考訳（メタデータ） (2025-04-16T02:10:42Z)
Distorting Embedding Space for Safety: A Defense Mechanism for Adversarially Robust Diffusion Models [4.5656369638728656]
Distorting Embedding Space (DES) はテキストエンコーダベースの防御機構である。 DESは、アンセーフプロンプトを用いてテキストエンコーダから抽出されたアンセーフな埋め込みを、慎重に計算された安全な埋め込み領域に変換する。 DESはまた、敵攻撃に対する堅牢性を高めるために、中立的な埋め込みと整列することで、即時ヌードを用いて抽出されたヌード埋め込みを中和する。
論文参考訳（メタデータ） (2025-01-31T04:14:05Z)
CROPS: Model-Agnostic Training-Free Framework for Safe Image Synthesis with Latent Diffusion Models [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。我々は、NSFW画像を生成する敵攻撃に対して、追加の訓練を必要とせずに容易に防御できるモデルに依存しないフレームワークであるCROPSを提案する。
論文参考訳（メタデータ） (2025-01-09T16:43:21Z)
AdvI2I: Adversarial Image Attack on Image-to-Image Diffusion models [20.37481116837779]
AdvI2Iは、入力画像を操作して拡散モデルを誘導し、NSFWコンテンツを生成する新しいフレームワークである。ジェネレータを最適化して敵画像を作成することで、AdvI2Iは既存の防御機構を回避できる。本稿では,AdvI2IとAdvI2I-Adaptiveの両方が,現行の安全対策を効果的に回避可能であることを示す。
論文参考訳（メタデータ） (2024-10-28T19:15:06Z)
Chain-of-Jailbreak Attack for Image Generation Models via Editing Step by Step [62.82566977845765]
ステップバイステップの編集プロセスを通じて画像生成モデルを損なう、Chain-of-Jailbreak (CoJ)アタックと呼ばれる新しいジェイルブレイク手法を提案する。我々のCoJ攻撃手法は、60%以上のケースでモデルの保護を回避できる。また,効果的なプロンプトベース手法であるThink Twice Promptingを提案する。
論文参考訳（メタデータ） (2024-10-04T19:04:43Z)
Multimodal Pragmatic Jailbreak on Text-to-image Models [43.67831238116829]
この研究は、新しいタイプのjailbreakを導入し、T2Iモデルをトリガーして、ビジュアルテキストで画像を生成する。 2つのオープンソース商用モデルを含む9つの代表的なT2Iモデルをベンチマークする。テストされたすべてのモデルはこの種のジェイルブレイクに悩まされており、安全でない世代の割合は8%から74%である。
論文参考訳（メタデータ） (2024-09-27T21:23:46Z)
RT-Attack: Jailbreaking Text-to-Image Models via Random Token [24.61198605177661]
ランダム検索を利用した2段階のクエリベースのブラックボックスアタック手法を提案する。第1段階では、敵と標的の有害なプロンプト間の意味的類似性を最大化することにより、予備的なプロンプトを確立する。第2段階では、この初期プロンプトを使用してアプローチを洗練し、脱獄を目的とした詳細な敵対的プロンプトを作成します。
論文参考訳（メタデータ） (2024-08-25T17:33:40Z)
EIUP: A Training-Free Approach to Erase Non-Compliant Concepts Conditioned on Implicit Unsafe Prompts [32.590822043053734]
非有毒なテキストは、暗黙の安全でないプロンプトと呼ばれる非準拠のイメージを生成するリスクを伴っている。我々は、非準拠の概念を消去プロンプトに組み込む、単純で効果的なアプローチを提案する。本手法は,画像の忠実度を高いスコアで評価しながら,優れた消去効果を示す。
論文参考訳（メタデータ） (2024-08-02T05:17:14Z)
Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文参考訳（メタデータ） (2024-04-11T17:59:52Z)
SurrogatePrompt: Bypassing the Safety Filter of Text-to-Image Models via Substitution [21.93748586123046]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文参考訳（メタデータ） (2023-09-25T13:20:15Z)
Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文参考訳（メタデータ） (2023-09-12T11:19:36Z)
BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文参考訳（メタデータ） (2023-07-31T08:34:24Z)
Mask and Restore: Blind Backdoor Defense at Test Time with Masked Autoencoder [57.739693628523]
Masked AutoEncoder (BDMAE) を用いたブラインドバックドア防御のためのフレームワークを提案する。 BDMAEは、画像構造的類似性とテスト画像とMAE復元の間のラベル整合性を用いて、トークン空間で可能なトリガを検出する。私たちのアプローチは、モデル復元、パターンのトリガー、画像の良心に盲目です。
論文参考訳（メタデータ） (2023-03-27T19:23:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。