論文の概要: Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.02928v1
- Date: Tue, 2 Apr 2024 09:49:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 19:04:16.723806
- Title: Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models
- Title(参考訳): 脱獄プロンプト攻撃:拡散モデルに対する制御可能な敵攻撃
- Authors: Jiachen Ma, Anda Cao, Zhiqing Xiao, Jie Zhang, Chao Ye, Junbo Zhao,
- Abstract要約: 本稿では,三つのメリットを享受するブラックボックス攻撃法を紹介する。
i)ディレクティブとセマンティック駆動の両方のアタックを可能にし、理論上、事実上、この巨大なユーザコミュニティに危険をもたらす。
CLIP埋め込み空間における単純なガイダンスの実行とセマンティックな損失と追加のセンシティブな単語リストの併用は、非常にうまく機能することがわかった。
- 参考スコア(独自算出の注目度): 11.24680299774092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The fast advance of the image generation community has attracted attention worldwide. The safety issue needs to be further scrutinized and studied. There have been a few works around this area mostly achieving a post-processing design, model-specific, or yielding suboptimal image quality generation. Despite that, in this article, we discover a black-box attack method that enjoys three merits. It enables (i)-attacks both directed and semantic-driven that theoretically and practically pose a hazard to this vast user community, (ii)-surprisingly surpasses the white-box attack in a black-box manner and (iii)-without requiring any post-processing effort. Core to our approach is inspired by the concept guidance intriguing property of Classifier-Free guidance (CFG) in T2I models, and we discover that conducting frustratingly simple guidance in the CLIP embedding space, coupled with the semantic loss and an additionally sensitive word list works very well. Moreover, our results expose and highlight the vulnerabilities in existing defense mechanisms.
- Abstract(参考訳): 画像生成コミュニティの急速な進歩は世界中で注目を集めている。
安全性の問題をさらに精査し、研究する必要がある。
この分野には、主に後処理設計、モデル固有の、あるいは最適下画像の品質生成を実現するいくつかの研究がある。
それにもかかわらず,本稿では,三つのメリットを享受できるブラックボックス攻撃法を見出す。
可能。
一 理論上、事実上この広大なユーザコミュニティに危険をもたらす、指示的かつ意味的駆動的な攻撃。
(二)必然的にブラックボックス方式でホワイトボックス攻撃を超越し、
(iii)後処理を一切必要とせずに。
提案手法のコアとなるのは,T2Iモデルにおける分類自由誘導(CFG)の持つ特性に着想を得た概念であり,CLIP埋め込み空間において,意味的損失と付加的なセンシティブな単語リストを併用して,フラストレーションに単純なガイダンスを実行することは極めて有効であることがわかった。
さらに,既存の防御機構の脆弱性を明らかにし,強調した。
関連論文リスト
- Revealing Vulnerabilities in Stable Diffusion via Targeted Attacks [41.531913152661296]
本稿では,安定拡散に対する標的対向攻撃の問題を定式化し,対向的プロンプトを生成するための枠組みを提案する。
具体的には、安定した拡散を誘導し、特定の画像を生成するための信頼性の高い逆プロンプトを構築するために、勾配に基づく埋め込み最適化を設計する。
逆方向のプロンプトを成功させた後、モデルの脆弱性を引き起こすメカニズムを明らかにする。
論文 参考訳(メタデータ) (2024-01-16T12:15:39Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z) - Art-Attack: Black-Box Adversarial Attack via Evolutionary Art [5.760976250387322]
ディープニューラルネットワーク(DNN)は多くのタスクで最先端のパフォーマンスを達成したが、敵の例によって生成された攻撃に対して極端な脆弱性を示している。
本稿では, 進化芸術の概念を用いて, 敵対的事例を生成することによって, 勾配のない攻撃を提案する。
論文 参考訳(メタデータ) (2022-03-07T12:54:09Z) - Saliency Diversified Deep Ensemble for Robustness to Adversaries [1.9659095632676094]
本研究は,深層アンサンブルのための新しい多様性促進学習手法を提案する。
この考え方は、アンサンブルのメンバーが一度にすべてのアンサンブルメンバーを標的にしないよう、サリエンシマップの多様性(SMD)を促進することである。
アンサンブル構成員間の移動性が低下し,最先端のアンサンブル防御よりも性能が向上したことを実証的に示す。
論文 参考訳(メタデータ) (2021-12-07T10:18:43Z) - Automating Defense Against Adversarial Attacks: Discovery of
Vulnerabilities and Application of Multi-INT Imagery to Protect Deployed
Models [0.0]
マルチスペクトル画像アレイとアンサンブル学習者が敵対的攻撃と戦うことを評価します。
サイバーネットワークを守るために、攻撃的(赤チーム)と防御的(青チーム)の両方のアプローチのテクニックを大まかに組み合わせます。
論文 参考訳(メタデータ) (2021-03-29T19:07:55Z) - Local Black-box Adversarial Attacks: A Query Efficient Approach [64.98246858117476]
アドリアックは、セキュリティに敏感なシナリオにおけるディープニューラルネットワークの適用を脅かしている。
ブラックボックス攻撃における限られたクエリ内でのみクリーンな例の識別領域を摂動させる新しいフレームワークを提案する。
攻撃成功率の高いブラックボックス摂動時のクエリ効率を大幅に改善できることを示すため,広範な実験を行った。
論文 参考訳(メタデータ) (2021-01-04T15:32:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。