論文の概要: DiffZOO: A Purely Query-Based Black-Box Attack for Red-teaming Text-to-Image Generative Model via Zeroth Order Optimization
- arxiv url: http://arxiv.org/abs/2408.11071v1
- Date: Sun, 18 Aug 2024 03:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-22 21:36:42.763743
- Title: DiffZOO: A Purely Query-Based Black-Box Attack for Red-teaming Text-to-Image Generative Model via Zeroth Order Optimization
- Title(参考訳): DiffZOO: ゼロ次最適化によるテキスト・ツー・イメージ生成モデルに対する純粋クエリベースのブラックボックス攻撃
- Authors: Pucheng Dang, Xing Hu, Dong Li, Rui Zhang, Qi Guo, Kaidi Xu,
- Abstract要約: 適切なコンテンツを生成するためのT2Iモデルの能力を拡張または公開するために、レッドチーム攻撃法が提案されている。
我々は,ゼロ次最適化を勾配近似に応用し,C-PRVとD-PRVの両方を用いて攻撃プロンプトを強化するDiffZOOを提案する。
複数の最先端安全メカニズムの実験により、DiffZOOは以前の作業よりも平均攻撃成功率が8.5%高いことが示されている。
- 参考スコア(独自算出の注目度): 20.958826487430194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current text-to-image (T2I) synthesis diffusion models raise misuse concerns, particularly in creating prohibited or not-safe-for-work (NSFW) images. To address this, various safety mechanisms and red teaming attack methods are proposed to enhance or expose the T2I model's capability to generate unsuitable content. However, many red teaming attack methods assume knowledge of the text encoders, limiting their practical usage. In this work, we rethink the case of \textit{purely black-box} attacks without prior knowledge of the T2l model. To overcome the unavailability of gradients and the inability to optimize attacks within a discrete prompt space, we propose DiffZOO which applies Zeroth Order Optimization to procure gradient approximations and harnesses both C-PRV and D-PRV to enhance attack prompts within the discrete prompt domain. We evaluated our method across multiple safety mechanisms of the T2I diffusion model and online servers. Experiments on multiple state-of-the-art safety mechanisms show that DiffZOO attains an 8.5% higher average attack success rate than previous works, hence its promise as a practical red teaming tool for T2l models.
- Abstract(参考訳): 現在のテキスト・ツー・イメージ(T2I)合成拡散モデルは、特に禁止または安全でない(NSFW)画像の作成において、誤用を懸念する。
これを解決するために、T2Iモデルが不適切なコンテンツを生成する能力を高めるために、様々な安全機構とレッド・チーム攻撃手法を提案する。
しかし、多くのレッド・チーム・アタック・メソッドはテキストエンコーダの知識を前提としており、実用的使用を制限している。
本研究では,T2lモデルの事前知識を必要とせずに,textit{purely black-box}攻撃の事例を再考する。
離散的なプロンプト空間内での攻撃の最適化が不可能な勾配の不有効性を克服するため、ゼロ次最適化を勾配近似に応用し、C-PRVとD-PRVを併用して離散的なプロンプト領域内の攻撃プロンプトを強化するDiffZOOを提案する。
提案手法は,T2I拡散モデルとオンラインサーバの複数の安全性機構にまたがって評価した。
複数の最先端安全メカニズムの実験により、DiffZOOは以前の作業よりも平均攻撃成功率が8.5%高いことが示され、T2lモデルの実用的なレッドチーム化ツールとして期待されている。
関連論文リスト
- Towards Safe Synthetic Image Generation On the Web: A Multimodal Robust NSFW Defense and Million Scale Dataset [20.758637391023345]
安全かつNSFWなテキストとイメージを区別するためにマルチモーダルディフェンスが開発された。
我々のモデルは精度とリコールの観点から既存のSOTA NSFW検出手法に対して良好に機能する。
論文 参考訳(メタデータ) (2025-04-16T02:10:42Z) - Token-Level Constraint Boundary Search for Jailbreaking Text-to-Image Models [20.740929360321747]
テキスト・ツー・イメージ(T2I)生成は、不適切または有害なコンテンツの生成に関連するリスクを引き起こす。
我々は,テキストと画像チェッカーによって定義された決定境界付近のトークンを検索する,クエリベースのブラックボックスジェイルブレイク攻撃であるTBC-Attackを提案する。
提案手法は,T2Iモデルにまたがる最先端のジェイルブレイク攻撃を継続的に上回ります。
論文 参考訳(メタデータ) (2025-04-15T11:53:40Z) - Reason2Attack: Jailbreaking Text-to-Image Models via LLM Reasoning [34.73320827764541]
テキスト・トゥ・イメージ(T2I)モデルは一般的に、機密画像の発生を防ぐために安全フィルタを配置する。
最近のジェイルブレイク攻撃手法は、LSMが敵のプロンプトを生成するように手動で設計する。
本稿では,LLMの推論能力を高めることを目的としたReason2Attack(R2A)を提案する。
論文 参考訳(メタデータ) (2025-03-23T08:40:39Z) - SafetyDPO: Scalable Safety Alignment for Text-to-Image Generation [68.07258248467309]
テキスト・ツー・イメージ(T2I)モデルは広く普及しているが、その限られた安全ガードレールはエンドユーザを有害なコンテンツに晒し、モデル誤用を許容する可能性がある。
現在の安全対策はテキストベースのフィルタリングや概念除去戦略に限られており、モデルの生成能力からわずかに概念を除去することができる。
直接選好最適化(DPO)によるT2Iモデルの安全アライメント手法であるSafetyDPOを導入する。
我々は、ローランク適応(LoRA)行列の形で、特定の安全関連から生成プロセスを導くことができる安全専門家を訓練する。
論文 参考訳(メタデータ) (2024-12-13T18:59:52Z) - Robust and Transferable Backdoor Attacks Against Deep Image Compression With Selective Frequency Prior [118.92747171905727]
本稿では,学習画像の圧縮モデルに複数のトリガを付加したバックドアアタックを起動するための新しい周波数ベースのトリガインジェクションモデルを提案する。
1) 圧縮品質をビットレートと再現精度で劣化させる,2) 顔認識やセマンティックセグメンテーションといったタスク駆動型対策を目標とする,様々なシナリオに適した攻撃目標を設計する。
実験の結果, トリガーインジェクションモデルと, エンコーダパラメータの微調整を組み合わせることで, 複数のバックドアとトリガーを1つの圧縮モデルに注入することができた。
論文 参考訳(メタデータ) (2024-12-02T15:58:40Z) - In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [97.82118821263825]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Combinational Backdoor Attack against Customized Text-to-Image Models [25.398098422270934]
カスタマイズT2Iモデルに対するコンビネーションバックドア攻撃(CBACT2I)
この研究は、カスタマイズされたT2Iモデルのバックドア脆弱性を明らかにし、バックドアの脅威を軽減するための対策を奨励する。
論文 参考訳(メタデータ) (2024-11-19T10:20:31Z) - RT-Attack: Jailbreaking Text-to-Image Models via Random Token [24.61198605177661]
ランダム検索を利用した2段階のクエリベースのブラックボックスアタック手法を提案する。
第1段階では、敵と標的の有害なプロンプト間の意味的類似性を最大化することにより、予備的なプロンプトを確立する。
第2段階では、この初期プロンプトを使用してアプローチを洗練し、脱獄を目的とした詳細な敵対的プロンプトを作成します。
論文 参考訳(メタデータ) (2024-08-25T17:33:40Z) - Direct Unlearning Optimization for Robust and Safe Text-to-Image Models [29.866192834825572]
モデルが潜在的に有害なコンテンツを生成する能力を取り除くために、未学習の技術が開発されている。
これらの手法は敵の攻撃によって容易に回避され、生成した画像の安全性を確保するには信頼性が低い。
T2IモデルからNot Safe For Work(NSFW)コンテンツを除去するための新しいフレームワークであるDirect Unlearning Optimization (DUO)を提案する。
論文 参考訳(メタデータ) (2024-07-17T08:19:11Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models [10.70975463369742]
JPA(Jailbreaking Prompt Attack)について紹介する。
JPAは、アントロニムのグループを使用してテキスト埋め込みスペース内のターゲットの悪意ある概念を検索する。
プレフィックスプロンプトは離散語彙空間で最適化され、テキスト埋め込み空間において悪意ある概念を意味的に整合させる。
論文 参考訳(メタデータ) (2024-04-02T09:49:35Z) - GuardT2I: Defending Text-to-Image Models from Adversarial Prompts [16.317849859000074]
GuardT2Iは、T2Iモデルの敵のプロンプトに対する堅牢性を高めるための生成的アプローチを採用する、新しいモデレーションフレームワークである。
実験の結果、GardetT2IはOpenAI-ModerationやMicrosoft Azure Moderatorといった主要な商用ソリューションよりも優れています。
論文 参考訳(メタデータ) (2024-03-03T09:04:34Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Cross-domain Cross-architecture Black-box Attacks on Fine-tuned Models
with Transferred Evolutionary Strategies [41.49982803774183]
微調整は敵の攻撃に対して脆弱である。
本稿では,2つの新しいBAFT設定(クロスドメインとクロスドメインクロスアーキテクチャBAFT)を提案する。
提案手法は,細調整されたモデルに対して効果的かつ効率的に攻撃できることを示す。
論文 参考訳(メタデータ) (2022-08-28T09:23:56Z) - Frequency Domain Model Augmentation for Adversarial Attack [91.36850162147678]
ブラックボックス攻撃の場合、代用モデルと被害者モデルの間のギャップは通常大きい。
そこで本研究では,通常の訓練モデルと防衛モデルの両方に対して,より伝達可能な対角線モデルを構築するための新しいスペクトルシミュレーション攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-12T08:26:21Z) - How to Robustify Black-Box ML Models? A Zeroth-Order Optimization
Perspective [74.47093382436823]
入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法?
我々は,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,それを復号化スムーシング(DS)のレンズを通して設計する。
我々は,ZO-AE-DSが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。
論文 参考訳(メタデータ) (2022-03-27T03:23:32Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。