論文の概要: Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.02928v1
- Date: Tue, 2 Apr 2024 09:49:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 19:04:16.723806
- Title: Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models
- Title(参考訳): 脱獄プロンプト攻撃:拡散モデルに対する制御可能な敵攻撃
- Authors: Jiachen Ma, Anda Cao, Zhiqing Xiao, Jie Zhang, Chao Ye, Junbo Zhao,
- Abstract要約: 本稿では,三つのメリットを享受するブラックボックス攻撃法を紹介する。
i)ディレクティブとセマンティック駆動の両方のアタックを可能にし、理論上、事実上、この巨大なユーザコミュニティに危険をもたらす。
CLIP埋め込み空間における単純なガイダンスの実行とセマンティックな損失と追加のセンシティブな単語リストの併用は、非常にうまく機能することがわかった。
- 参考スコア(独自算出の注目度): 11.24680299774092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The fast advance of the image generation community has attracted attention worldwide. The safety issue needs to be further scrutinized and studied. There have been a few works around this area mostly achieving a post-processing design, model-specific, or yielding suboptimal image quality generation. Despite that, in this article, we discover a black-box attack method that enjoys three merits. It enables (i)-attacks both directed and semantic-driven that theoretically and practically pose a hazard to this vast user community, (ii)-surprisingly surpasses the white-box attack in a black-box manner and (iii)-without requiring any post-processing effort. Core to our approach is inspired by the concept guidance intriguing property of Classifier-Free guidance (CFG) in T2I models, and we discover that conducting frustratingly simple guidance in the CLIP embedding space, coupled with the semantic loss and an additionally sensitive word list works very well. Moreover, our results expose and highlight the vulnerabilities in existing defense mechanisms.
- Abstract(参考訳): 画像生成コミュニティの急速な進歩は世界中で注目を集めている。
安全性の問題をさらに精査し、研究する必要がある。
この分野には、主に後処理設計、モデル固有の、あるいは最適下画像の品質生成を実現するいくつかの研究がある。
それにもかかわらず,本稿では,三つのメリットを享受できるブラックボックス攻撃法を見出す。
可能。
一 理論上、事実上この広大なユーザコミュニティに危険をもたらす、指示的かつ意味的駆動的な攻撃。
(二)必然的にブラックボックス方式でホワイトボックス攻撃を超越し、
(iii)後処理を一切必要とせずに。
提案手法のコアとなるのは,T2Iモデルにおける分類自由誘導(CFG)の持つ特性に着想を得た概念であり,CLIP埋め込み空間において,意味的損失と付加的なセンシティブな単語リストを併用して,フラストレーションに単純なガイダンスを実行することは極めて有効であることがわかった。
さらに,既存の防御機構の脆弱性を明らかにし,強調した。
関連論文リスト
- AdvI2I: Adversarial Image Attack on Image-to-Image Diffusion models [20.37481116837779]
AdvI2Iは、入力画像を操作して拡散モデルを誘導し、NSFWコンテンツを生成する新しいフレームワークである。
ジェネレータを最適化して敵画像を作成することで、AdvI2Iは既存の防御機構を回避できる。
本稿では,AdvI2IとAdvI2I-Adaptiveの両方が,現行の安全対策を効果的に回避可能であることを示す。
論文 参考訳(メタデータ) (2024-10-28T19:15:06Z) - RT-Attack: Jailbreaking Text-to-Image Models via Random Token [24.61198605177661]
ランダム検索を利用した2段階のクエリベースのブラックボックスアタック手法を提案する。
第1段階では、敵と標的の有害なプロンプト間の意味的類似性を最大化することにより、予備的なプロンプトを確立する。
第2段階では、この初期プロンプトを使用してアプローチを洗練し、脱獄を目的とした詳細な敵対的プロンプトを作成します。
論文 参考訳(メタデータ) (2024-08-25T17:33:40Z) - Perception-guided Jailbreak against Text-to-Image Models [18.825079959947857]
PGJと呼ばれるLPM駆動型知覚誘導ジェイルブレイク法を提案する。
これは、特定のT2Iモデル(モデルフリー)を必要としないブラックボックスジェイルブレイク方式であり、非常に自然な攻撃プロンプトを生成する。
6つのオープンソースモデルと何千ものプロンプトによる商用オンラインサービスによる実験により,PGJの有効性が検証された。
論文 参考訳(メタデータ) (2024-08-20T13:40:25Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - GuardT2I: Defending Text-to-Image Models from Adversarial Prompts [16.317849859000074]
GuardT2Iは、T2Iモデルの敵のプロンプトに対する堅牢性を高めるための生成的アプローチを採用する、新しいモデレーションフレームワークである。
実験の結果、GardetT2IはOpenAI-ModerationやMicrosoft Azure Moderatorといった主要な商用ソリューションよりも優れています。
論文 参考訳(メタデータ) (2024-03-03T09:04:34Z) - Get What You Want, Not What You Don't: Image Content Suppression for
Text-to-Image Diffusion Models [86.92711729969488]
テキスト埋め込みの操作方法を分析し、不要なコンテンツを除去する。
第1は、テキスト埋め込み行列を正規化し、望ましくないコンテンツを効果的に抑制する。
第2の方法は、プロンプトの不要なコンテンツ生成をさらに抑制し、所望のコンテンツの生成を促進することである。
論文 参考訳(メタデータ) (2024-02-08T03:15:06Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models [79.50701155336198]
textbfForget-Me-Notは、適切に設定されたテキスト・ツー・イメージモデルから、指定されたID、オブジェクト、スタイルを30秒で安全に削除するように設計されている。
我々は,Forget-Me-Notが,モデルの性能を他の概念に保ちながら,ターゲットとなる概念を効果的に排除できることを実証した。
また、Stable Diffusionの軽量モデルパッチとして適応することができ、コンセプト操作と便利な配布を可能にしている。
論文 参考訳(メタデータ) (2023-03-30T17:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。