論文の概要: SurrogatePrompt: Bypassing the Safety Filter of Text-To-Image Models via
Substitution
- arxiv url: http://arxiv.org/abs/2309.14122v1
- Date: Mon, 25 Sep 2023 13:20:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 15:29:01.200906
- Title: SurrogatePrompt: Bypassing the Safety Filter of Text-To-Image Models via
Substitution
- Title(参考訳): surrogateprompt: 置換によるテキスト対画像モデルの安全フィルタをバイパスする
- Authors: Zhongjie Ba, Jieming Zhong, Jiachen Lei, Peng Cheng, Qinglong Wang,
Zhan Qin, Zhibo Wang, Kui Ren
- Abstract要約: 我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
- 参考スコア(独自算出の注目度): 22.882337899780968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced text-to-image models such as DALL-E 2 and Midjourney possess the
capacity to generate highly realistic images, raising significant concerns
regarding the potential proliferation of unsafe content. This includes adult,
violent, or deceptive imagery of political figures. Despite claims of rigorous
safety mechanisms implemented in these models to restrict the generation of
not-safe-for-work (NSFW) content, we successfully devise and exhibit the first
prompt attacks on Midjourney, resulting in the production of abundant
photorealistic NSFW images. We reveal the fundamental principles of such prompt
attacks and suggest strategically substituting high-risk sections within a
suspect prompt to evade closed-source safety measures. Our novel framework,
SurrogatePrompt, systematically generates attack prompts, utilizing large
language models, image-to-text, and image-to-image modules to automate attack
prompt creation at scale. Evaluation results disclose an 88% success rate in
bypassing Midjourney's proprietary safety filter with our attack prompts,
leading to the generation of counterfeit images depicting political figures in
violent scenarios. Both subjective and objective assessments validate that the
images generated from our attack prompts present considerable safety hazards.
- Abstract(参考訳): dall-e 2やmidjourneyのような高度なテキスト対画像モデルは、高度に現実的な画像を生成する能力を有しており、安全でないコンテンツの潜在的な増殖に関する重大な懸念を提起している。
これには、大人、暴力的、あるいは政治的人物のイメージが含まれる。
安全でない作業(NSFW)コンテンツの生成を制限するためにこれらのモデルに厳密な安全機構が実装されているにもかかわらず、我々はMidjourneyに対する最初の迅速な攻撃を考案し、その結果、豊富なフォトリアリスティックなNSFW画像を生成することに成功した。
我々は,このような早期攻撃の基本原則を明らかにし,クローズドソース・セーフティ対策を回避しようとする疑似プロンプト内で,戦略的にリスクの高い部分を構成することを示唆する。
我々の新しいフレームワークであるSurrogatePromptは、大規模言語モデル、画像とテキスト、画像と画像のモジュールを利用して、攻撃プロンプトを大規模に自動生成する。
評価の結果、midjourneyの独自安全フィルターを回避して88%の成功率を明らかにし、暴力的なシナリオで政治的人物を描いた偽造画像の生成につながった。
主観的評価も客観的評価も、攻撃によって生成された画像が相当な安全性の危険をもたらすことを検証します。
関連論文リスト
- Groot: Adversarial Testing for Generative Text-to-Image Models with
Tree-based Semantic Transformation [16.79414725225863]
NSFW(Not-Safe-For-Work)コンテンツを生成するために,このようなモデルを誘導できるかどうかを調査するために,敵の試験技術が開発されている。
Grootは、木に基づくセマンティックトランスフォーメーションを利用した最初の自動化フレームワークで、テキスト・ツー・イメージモデルの対角テストを行う。
我々はGrootの有効性を総合的に検証し、現在最先端のアプローチの性能を上回るだけでなく、主要なテキスト・画像モデルにおいて顕著な成功率(93.66%)を達成している。
論文 参考訳(メタデータ) (2024-02-19T12:31:56Z) - On Prompt-Driven Safeguarding for Large Language Models [178.612893285033]
モデル表現空間において、有害で有害なクエリは、大きく区別できるが、これは安全プロンプトによって顕著に強化されない。
そこで本研究では,DRO(Directed Representation Optimization)と呼ばれる自動安全プロンプト最適化手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Image Safeguarding: Reasoning with Conditional Vision Language Model and
Obfuscating Unsafe Content Counterfactually [3.69611312621848]
ソーシャルメディアプラットフォームは、性的行為を描写した画像など、悪意あるアクターが安全でないコンテンツを共有するためにますます利用されている。
主要なプラットフォームでは、人工知能(AI)と人間のモデレーションを使用して、そのような画像を難読化してより安全なものにしている。
難読化画像の2つの重要なニーズは、難読化画像領域の正確な根拠を提供する必要があることである。
論文 参考訳(メタデータ) (2024-01-19T21:38:18Z) - Revealing Vulnerabilities in Stable Diffusion via Targeted Attacks [41.531913152661296]
本稿では,安定拡散に対する標的対向攻撃の問題を定式化し,対向的プロンプトを生成するための枠組みを提案する。
具体的には、安定した拡散を誘導し、特定の画像を生成するための信頼性の高い逆プロンプトを構築するために、勾配に基づく埋め込み最適化を設計する。
逆方向のプロンプトを成功させた後、モデルの脆弱性を引き起こすメカニズムを明らかにする。
論文 参考訳(メタデータ) (2024-01-16T12:15:39Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion
Models? [54.20337292389793]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by
Finding Problematic Prompts [68.24640128324778]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - FLIRT: Feedback Loop In-context Red Teaming [71.38594755628581]
我々は、与えられたモデルを評価し、その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - Attribute-Guided Encryption with Facial Texture Masking [64.77548539959501]
本稿では,顔認識システムからユーザを保護するために,顔テクスチャマスキングを用いた属性ガイド暗号化を提案する。
提案手法は,最先端の手法よりも自然な画像を生成する。
論文 参考訳(メタデータ) (2023-05-22T23:50:43Z) - Membership Inference Attacks Against Text-to-image Generation Models [23.39695974954703]
本稿では,メンバシップ推論のレンズを用いたテキスト・画像生成モデルの最初のプライバシ解析を行う。
本稿では,メンバーシップ情報に関する3つの重要な直観と,それに応じて4つの攻撃手法を設計する。
提案した攻撃はいずれも大きな性能を達成でき、場合によっては精度が1に近い場合もあり、既存のメンバーシップ推論攻撃よりもはるかに深刻なリスクとなる。
論文 参考訳(メタデータ) (2022-10-03T14:31:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。