論文の概要: RT-Attack: Jailbreaking Text-to-Image Models via Random Token
- arxiv url: http://arxiv.org/abs/2408.13896v2
- Date: Tue, 27 Aug 2024 15:13:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 12:43:01.940967
- Title: RT-Attack: Jailbreaking Text-to-Image Models via Random Token
- Title(参考訳): RT-Attack:ランダムトークンを使ってテキストと画像のモデルをジェイルブレイク
- Authors: Sensen Gao, Xiaojun Jia, Yihao Huang, Ranjie Duan, Jindong Gu, Yang Liu, Qing Guo,
- Abstract要約: ランダム検索を利用した2段階のクエリベースのブラックボックスアタック手法を提案する。
第1段階では、敵と標的の有害なプロンプト間の意味的類似性を最大化することにより、予備的なプロンプトを確立する。
第2段階では、この初期プロンプトを使用してアプローチを洗練し、脱獄を目的とした詳細な敵対的プロンプトを作成します。
- 参考スコア(独自算出の注目度): 24.61198605177661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Text-to-Image(T2I) models have achieved remarkable success in image generation and editing, yet these models still have many potential issues, particularly in generating inappropriate or Not-Safe-For-Work(NSFW) content. Strengthening attacks and uncovering such vulnerabilities can advance the development of reliable and practical T2I models. Most of the previous works treat T2I models as white-box systems, using gradient optimization to generate adversarial prompts. However, accessing the model's gradient is often impossible in real-world scenarios. Moreover, existing defense methods, those using gradient masking, are designed to prevent attackers from obtaining accurate gradient information. While some black-box jailbreak attacks have been explored, these typically rely on simply replacing sensitive words, leading to suboptimal attack performance. To address this issue, we introduce a two-stage query-based black-box attack method utilizing random search. In the first stage, we establish a preliminary prompt by maximizing the semantic similarity between the adversarial and target harmful prompts. In the second stage, we use this initial prompt to refine our approach, creating a detailed adversarial prompt aimed at jailbreaking and maximizing the similarity in image features between the images generated from this prompt and those produced by the target harmful prompt. Extensive experiments validate the effectiveness of our method in attacking the latest prompt checkers, post-hoc image checkers, securely trained T2I models, and online commercial models.
- Abstract(参考訳): 近年,テキスト・ツー・イメージ(T2I)モデルは画像生成や編集において顕著な成功を収めているが,これらのモデルには多くの潜在的な問題があり,特に不適切なコンテンツやNot-Safe-For-Work(NSFW)を生成している。
攻撃の強化とそのような脆弱性の発見は、信頼性が高く実用的なT2Iモデルの開発を促進する可能性がある。
以前の研究のほとんどは、逆のプロンプトを生成するために勾配最適化を使用して、T2Iモデルをホワイトボックスシステムとして扱う。
しかし、実際のシナリオでは、モデルの勾配にアクセスすることはしばしば不可能である。
さらに,攻撃者が正確な勾配情報を得るのを防ぐために,グラデーションマスキングを用いた既存の防御手法が設計されている。
ブラックボックスのジェイルブレイク攻撃はいくつか検討されているが、それらは通常、単にセンシティブな単語を置き換えることに依存しており、最適以下の攻撃性能に繋がる。
この問題に対処するために,ランダム検索を利用した2段階のクエリベースのブラックボックス攻撃手法を提案する。
第1段階では、敵と標的の有害なプロンプト間の意味的類似性を最大化することにより、予備的なプロンプトを確立する。
第2段階では、この初期プロンプトを用いてアプローチを洗練し、このプロンプトから生成された画像とターゲットの有害プロンプトから生成された画像との類似性を最大化し、ジェイルブレイクを目的とした詳細な敵プロンプトを作成する。
大規模な実験により、最新のプロンプトチェッカー、ポストホック画像チェッカー、セキュアに訓練されたT2Iモデル、オンライン商用モデルに対する攻撃の有効性が検証された。
関連論文リスト
- Multimodal Pragmatic Jailbreak on Text-to-image Models [43.67831238116829]
この研究は、新しいタイプのjailbreakを導入し、T2Iモデルをトリガーして、ビジュアルテキストで画像を生成する。
2つのオープンソース商用モデルを含む9つの代表的なT2Iモデルをベンチマークする。
テストされたすべてのモデルはこの種のジェイルブレイクに悩まされており、安全でない世代の割合は8%から74%である。
論文 参考訳(メタデータ) (2024-09-27T21:23:46Z) - Perception-guided Jailbreak against Text-to-Image Models [18.825079959947857]
PGJと呼ばれるLPM駆動型知覚誘導ジェイルブレイク法を提案する。
これは、特定のT2Iモデル(モデルフリー)を必要としないブラックボックスジェイルブレイク方式であり、非常に自然な攻撃プロンプトを生成する。
6つのオープンソースモデルと何千ものプロンプトによる商用オンラインサービスによる実験により,PGJの有効性が検証された。
論文 参考訳(メタデータ) (2024-08-20T13:40:25Z) - DiffZOO: A Purely Query-Based Black-Box Attack for Red-teaming Text-to-Image Generative Model via Zeroth Order Optimization [20.958826487430194]
適切なコンテンツを生成するためのT2Iモデルの能力を拡張または公開するために、レッドチーム攻撃法が提案されている。
我々は,ゼロ次最適化を勾配近似に応用し,C-PRVとD-PRVの両方を用いて攻撃プロンプトを強化するDiffZOOを提案する。
複数の最先端安全メカニズムの実験により、DiffZOOは以前の作業よりも平均攻撃成功率が8.5%高いことが示されている。
論文 参考訳(メタデータ) (2024-08-18T03:16:59Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models [10.70975463369742]
JPA(Jailbreaking Prompt Attack)について紹介する。
JPAは、アントロニムのグループを使用してテキスト埋め込みスペース内のターゲットの悪意ある概念を検索する。
プレフィックスプロンプトは離散語彙空間で最適化され、テキスト埋め込み空間において悪意ある概念を意味的に整合させる。
論文 参考訳(メタデータ) (2024-04-02T09:49:35Z) - Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [150.57983348059528]
PRISMは人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムである。
T2Iモデルへのブラックボックスアクセスのみを前提として、望まれる概念を効果的に生成できる。
本実験は,オブジェクト,スタイル,画像の正確なプロンプト生成におけるPRISMの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-03-28T02:35:53Z) - GuardT2I: Defending Text-to-Image Models from Adversarial Prompts [16.317849859000074]
GuardT2Iは、T2Iモデルの敵のプロンプトに対する堅牢性を高めるための生成的アプローチを採用する、新しいモデレーションフレームワークである。
実験の結果、GardetT2IはOpenAI-ModerationやMicrosoft Azure Moderatorといった主要な商用ソリューションよりも優れています。
論文 参考訳(メタデータ) (2024-03-03T09:04:34Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Cheating Suffix: Targeted Attack to Text-To-Image Diffusion Models with
Multi-Modal Priors [59.43303903348258]
拡散モデルは様々な画像生成タスクに広く展開されている。
彼らは悪意ある画像や機密画像を生成するために悪用されるという課題に直面している。
本稿では,MMP-Attack という攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T12:39:49Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。