論文の概要: Metaphor-based Jailbreaking Attacks on Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2503.17987v1
- Date: Sun, 23 Mar 2025 08:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:31.262205
- Title: Metaphor-based Jailbreaking Attacks on Text-to-Image Models
- Title(参考訳): テキスト・画像モデルを用いたメタファーによる脱獄攻撃
- Authors: Chenyu Zhang, Yiwen Ma, Lanjun Wang, Wenhui Li, Yi Tu, An-An Liu,
- Abstract要約: タブーゲームに触発されたtextbfmetaphor ベースの textbfjailbreaking textbf attack 手法である textbfMJA を導入する。
我々の敵対的プロンプトは、様々なオープンソースおよび商用T2Iモデル間で強い転送可能性を示す。
- 参考スコア(独自算出の注目度): 35.23981188632338
- License:
- Abstract: To mitigate misuse, text-to-image~(T2I) models commonly incorporate safety filters to prevent the generation of sensitive images. Unfortunately, recent jailbreaking attack methods use LLMs to generate adversarial prompts that effectively bypass safety filters while generating sensitive images, revealing the safety vulnerabilities within the T2I model. However, existing LLM-based attack methods lack explicit guidance, relying on substantial queries to achieve a successful attack, which limits their practicality in real-world scenarios. In this work, we introduce \textbf{MJA}, a \textbf{m}etaphor-based \textbf{j}ailbreaking \textbf{a}ttack method inspired by the Taboo game, aiming to balance the attack effectiveness and query efficiency by generating metaphor-based adversarial prompts. Specifically, MJA consists of two modules: an LLM-based multi-agent generation module~(MLAG) and an adversarial prompt optimization module~(APO). MLAG decomposes the generation of metaphor-based adversarial prompts into three subtasks: metaphor retrieval, context matching, and adversarial prompt generation. Subsequently, MLAG coordinates three LLM-based agents to generate diverse adversarial prompts by exploring various metaphors and contexts. To enhance the attack efficiency, APO first trains a surrogate model to predict the attack results of adversarial prompts and then designs an acquisition strategy to adaptively identify optimal adversarial prompts. Experiments demonstrate that MJA achieves better attack effectiveness while requiring fewer queries compared to baseline methods. Moreover, our adversarial prompts exhibit strong transferability across various open-source and commercial T2I models. \textcolor{red}{This paper includes model-generated content that may contain offensive or distressing material.}
- Abstract(参考訳): 誤用を軽減するために、テキスト・トゥ・イメージ〜(T2I)モデルは一般的に、機密画像の生成を防ぐために安全フィルタを組み込んでいる。
残念なことに、最近のジェイルブレイク攻撃手法では、LLMを使用して安全フィルタを効果的に回避し、センシティブな画像を生成し、T2Iモデル内の安全性の脆弱性を明らかにする。
しかし、既存のLLMベースのアタック手法では明確なガイダンスが欠如しており、実際のシナリオでの実用性を制限している。
本研究では,Taboo ゲームに触発された \textbf{m}etaphor ベースの \textbf{j}ailbreaking \textbf{a}ttack メソッドである \textbf{MJA} を紹介し,メタファベースの逆数プロンプトを生成することで,攻撃効率とクエリ効率のバランスをとることを目的とした。
具体的には、MJAはLLMベースのマルチエージェント生成モジュール~(MLAG)と対向的なプロンプト最適化モジュール~(APO)の2つのモジュールから構成される。
MLAGは、比喩に基づく逆のプロンプトの生成をメタファー検索、コンテキストマッチング、逆のプロンプト生成という3つのサブタスクに分解する。
その後、MLAGは3つのLSMベースのエージェントを調整し、様々なメタファーや文脈を探索することで、多様な敵のプロンプトを生成する。
攻撃効率を高めるために、APOはまず代理モデルを訓練し、敵のプロンプトの攻撃結果を予測し、次に最適な敵のプロンプトを適応的に識別する獲得戦略を設計する。
実験により、MJAはベースライン法よりも少ないクエリを必要とする一方で、攻撃効率が向上することが示された。
さらに, 各種オープンソースおよび商用T2Iモデルに対して, 高い転送性を示す。
この論文は、攻撃的または苦痛的な材料を含むかもしれないモデル生成コンテンツを含む。
※
関連論文リスト
- `Do as I say not as I do': A Semi-Automated Approach for Jailbreak Prompt Attack against Multimodal LLMs [6.151779089440453]
マルチモーダル大言語モデル(LLM)に対する最初の音声ベースのジェイルブレイク攻撃を導入する。
本稿では,不許可なプロンプトを,良心的かつ物語駆動的なプロンプトによって側面に配置する,新たな戦略を提案する。
我々は、Flanking Attackは最先端のLLMを操作でき、不整合および禁止された出力を生成することを実証する。
論文 参考訳(メタデータ) (2025-02-02T10:05:08Z) - Autonomous LLM-Enhanced Adversarial Attack for Text-to-Motion [22.666853714543993]
テキスト・トゥ・モーション(T2M)モデルはテキスト・プロンプトからリアルな動きを生成する。
T2Mへの関心が高まったが、敵の攻撃からこれらのモデルを保護することに焦点を当てる手法はほとんどなかった。
ALERT-Motionは,ブラックボックスT2Mモデルに対する敵攻撃を標的とする自律的フレームワークである。
論文 参考訳(メタデータ) (2024-08-01T07:44:11Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - An LLM can Fool Itself: A Prompt-Based Adversarial Attack [26.460067102821476]
本稿では, プロンプトベースの対向攻撃(PromptAttack)を用いて, LLMの対向ロバスト性を評価する効率的なツールを提案する。
PromptAttackは、敵のテキスト攻撃を攻撃プロンプトに変換することで、被害者のLSMが敵のサンプルを不正に出力する可能性がある。
Llama2とGPT-3.5を使った総合的な実験結果から、PromptAttackはAdvGLUEやAdvGLUE++に比べて攻撃成功率がずっと高いことが証明されている。
論文 参考訳(メタデータ) (2023-10-20T08:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。