論文の概要: HTS-Attack: Heuristic Token Search for Jailbreaking Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2408.13896v3
- Date: Sun, 15 Dec 2024 05:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:34.555076
- Title: HTS-Attack: Heuristic Token Search for Jailbreaking Text-to-Image Models
- Title(参考訳): HTS-Attack: テキスト・画像モデルのジェイルブレークのためのヒューリスティックなトークン検索
- Authors: Sensen Gao, Xiaojun Jia, Yihao Huang, Ranjie Duan, Jindong Gu, Yang Bai, Yang Liu, Qing Guo,
- Abstract要約: テキスト・トゥ・イメージ(T2I)モデルは画像生成と編集において顕著な成功を収めた。
これらのモデルには、特に不適切な、あるいは安全でない(NSFW)コンテンツを生成する場合に、多くの潜在的な問題がある。
本稿では,トークン探索攻撃手法であるHTS-Attackを提案する。
- 参考スコア(独自算出の注目度): 28.28898114141277
- License:
- Abstract: Text-to-Image(T2I) models have achieved remarkable success in image generation and editing, yet these models still have many potential issues, particularly in generating inappropriate or Not-Safe-For-Work(NSFW) content. Strengthening attacks and uncovering such vulnerabilities can advance the development of reliable and practical T2I models. Most of the previous works treat T2I models as white-box systems, using gradient optimization to generate adversarial prompts. However, accessing the model's gradient is often impossible in real-world scenarios. Moreover, existing defense methods, those using gradient masking, are designed to prevent attackers from obtaining accurate gradient information. While several black-box jailbreak attacks have been explored, they achieve the limited performance of jailbreaking T2I models due to difficulties associated with optimization in discrete spaces. To address this, we propose HTS-Attack, a heuristic token search attack method. HTS-Attack begins with an initialization that removes sensitive tokens, followed by a heuristic search where high-performing candidates are recombined and mutated. This process generates a new pool of candidates, and the optimal adversarial prompt is updated based on their effectiveness. By incorporating both optimal and suboptimal candidates, HTS-Attack avoids local optima and improves robustness in bypassing defenses. Extensive experiments validate the effectiveness of our method in attacking the latest prompt checkers, post-hoc image checkers, securely trained T2I models, and online commercial models.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは画像生成と編集において顕著な成功を収めているが、これらのモデルには多くの潜在的な問題があり、特に不適切なコンテンツや安全でないコンテンツ(NSFW)を生成する。
攻撃の強化とそのような脆弱性の発見は、信頼性が高く実用的なT2Iモデルの開発を促進する可能性がある。
以前の研究のほとんどは、逆のプロンプトを生成するために勾配最適化を使用して、T2Iモデルをホワイトボックスシステムとして扱う。
しかし、実際のシナリオでは、モデルの勾配にアクセスすることはしばしば不可能である。
さらに,攻撃者が正確な勾配情報を得るのを防ぐために,グラデーションマスキングを用いた既存の防御手法が設計されている。
いくつかのブラックボックス・ジェイルブレイク攻撃が検討されているが、離散空間における最適化の難しさにより、ジェイルブレイクするT2Iモデルの限られた性能を達成する。
そこで本研究では,ヒューリスティックなトークン探索手法であるHTS-Attackを提案する。
HTS-Attackは、機密トークンを除去する初期化から始まり、ハイパフォーマンスな候補を組み換えて変更するヒューリスティック検索に続く。
このプロセスは、新しい候補のプールを生成し、その有効性に基づいて最適な敵のプロンプトを更新する。
HTS-Attackは最適な候補と準最適候補の両方を組み込むことで、局所最適を避け、防御をバイパスする堅牢性を向上させる。
大規模な実験により、最新のプロンプトチェッカー、ポストホック画像チェッカー、セキュアに訓練されたT2Iモデル、オンライン商用モデルに対する攻撃の有効性が検証された。
関連論文リスト
- In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Multimodal Pragmatic Jailbreak on Text-to-image Models [43.67831238116829]
この研究は、新しいタイプのjailbreakを導入し、T2Iモデルをトリガーして、ビジュアルテキストで画像を生成する。
2つのオープンソース商用モデルを含む9つの代表的なT2Iモデルをベンチマークする。
テストされたすべてのモデルはこの種のジェイルブレイクに悩まされており、安全でない世代の割合は8%から74%である。
論文 参考訳(メタデータ) (2024-09-27T21:23:46Z) - DiffZOO: A Purely Query-Based Black-Box Attack for Red-teaming Text-to-Image Generative Model via Zeroth Order Optimization [20.958826487430194]
適切なコンテンツを生成するためのT2Iモデルの能力を拡張または公開するために、レッドチーム攻撃法が提案されている。
我々は,ゼロ次最適化を勾配近似に応用し,C-PRVとD-PRVの両方を用いて攻撃プロンプトを強化するDiffZOOを提案する。
複数の最先端安全メカニズムの実験により、DiffZOOは以前の作業よりも平均攻撃成功率が8.5%高いことが示されている。
論文 参考訳(メタデータ) (2024-08-18T03:16:59Z) - UPAM: Unified Prompt Attack in Text-to-Image Generation Models Against Both Textual Filters and Visual Checkers [21.30197653947112]
テキスト・ツー・イメージ(T2I)モデルでは、不適切な画像や有害な画像を生成する可能性があるため、セキュリティ上の懸念が高まっている。
攻撃の観点からT2Iモデルのロバスト性を調べる新しいフレームワークであるUPAMを提案する。
論文 参考訳(メタデータ) (2024-05-18T16:47:36Z) - Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models [10.70975463369742]
JPA(Jailbreaking Prompt Attack)について紹介する。
JPAは、アントロニムのグループを使用してテキスト埋め込みスペース内のターゲットの悪意ある概念を検索する。
プレフィックスプロンプトは離散語彙空間で最適化され、テキスト埋め込み空間において悪意ある概念を意味的に整合させる。
論文 参考訳(メタデータ) (2024-04-02T09:49:35Z) - Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [149.96612254604986]
PRISMは人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムである。
T2Iモデルへのブラックボックスアクセスのみを前提として、望まれる概念を効果的に生成できる。
本実験は,オブジェクト,スタイル,画像の正確なプロンプト生成におけるPRISMの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-03-28T02:35:53Z) - GuardT2I: Defending Text-to-Image Models from Adversarial Prompts [16.317849859000074]
GuardT2Iは、T2Iモデルの敵のプロンプトに対する堅牢性を高めるための生成的アプローチを採用する、新しいモデレーションフレームワークである。
実験の結果、GardetT2IはOpenAI-ModerationやMicrosoft Azure Moderatorといった主要な商用ソリューションよりも優れています。
論文 参考訳(メタデータ) (2024-03-03T09:04:34Z) - Orthogonal Deep Models As Defense Against Black-Box Attacks [71.23669614195195]
攻撃者が標的モデルに類似したモデルを用いて攻撃を発生させるブラックボックス設定における深層モデル固有の弱点について検討する。
本稿では,深部モデルの内部表現を他のモデルに直交させる新しい勾配正規化手法を提案する。
様々な大規模モデルにおいて,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2020-06-26T08:29:05Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z) - Towards Query-Efficient Black-Box Adversary with Zeroth-Order Natural
Gradient Descent [92.4348499398224]
ブラックボックスの敵攻撃手法は、実用性や単純さから特に注目されている。
敵攻撃を設計するためのゼロ階自然勾配降下法(ZO-NGD)を提案する。
ZO-NGDは、最先端攻撃法と比較して、モデルクエリの複雑さが大幅に低い。
論文 参考訳(メタデータ) (2020-02-18T21:48:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。