論文の概要: Metaphor-based Jailbreaking Attacks on Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2503.17987v1
- Date: Sun, 23 Mar 2025 08:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 16:32:16.932189
- Title: Metaphor-based Jailbreaking Attacks on Text-to-Image Models
- Title(参考訳): テキスト・画像モデルを用いたメタファーによる脱獄攻撃
- Authors: Chenyu Zhang, Yiwen Ma, Lanjun Wang, Wenhui Li, Yi Tu, An-An Liu,
- Abstract要約: タブーゲームに触発されたtextbfmetaphor ベースの textbfjailbreaking textbf attack 手法である textbfMJA を導入する。
我々の敵対的プロンプトは、様々なオープンソースおよび商用T2Iモデル間で強い転送可能性を示す。
- 参考スコア(独自算出の注目度): 35.23981188632338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To mitigate misuse, text-to-image~(T2I) models commonly incorporate safety filters to prevent the generation of sensitive images. Unfortunately, recent jailbreaking attack methods use LLMs to generate adversarial prompts that effectively bypass safety filters while generating sensitive images, revealing the safety vulnerabilities within the T2I model. However, existing LLM-based attack methods lack explicit guidance, relying on substantial queries to achieve a successful attack, which limits their practicality in real-world scenarios. In this work, we introduce \textbf{MJA}, a \textbf{m}etaphor-based \textbf{j}ailbreaking \textbf{a}ttack method inspired by the Taboo game, aiming to balance the attack effectiveness and query efficiency by generating metaphor-based adversarial prompts. Specifically, MJA consists of two modules: an LLM-based multi-agent generation module~(MLAG) and an adversarial prompt optimization module~(APO). MLAG decomposes the generation of metaphor-based adversarial prompts into three subtasks: metaphor retrieval, context matching, and adversarial prompt generation. Subsequently, MLAG coordinates three LLM-based agents to generate diverse adversarial prompts by exploring various metaphors and contexts. To enhance the attack efficiency, APO first trains a surrogate model to predict the attack results of adversarial prompts and then designs an acquisition strategy to adaptively identify optimal adversarial prompts. Experiments demonstrate that MJA achieves better attack effectiveness while requiring fewer queries compared to baseline methods. Moreover, our adversarial prompts exhibit strong transferability across various open-source and commercial T2I models. \textcolor{red}{This paper includes model-generated content that may contain offensive or distressing material.}
- Abstract(参考訳): 誤用を軽減するために、テキスト・トゥ・イメージ〜(T2I)モデルは一般的に、機密画像の生成を防ぐために安全フィルタを組み込んでいる。
残念なことに、最近のジェイルブレイク攻撃手法では、LLMを使用して安全フィルタを効果的に回避し、センシティブな画像を生成し、T2Iモデル内の安全性の脆弱性を明らかにする。
しかし、既存のLLMベースのアタック手法では明確なガイダンスが欠如しており、実際のシナリオでの実用性を制限している。
本研究では,Taboo ゲームに触発された \textbf{m}etaphor ベースの \textbf{j}ailbreaking \textbf{a}ttack メソッドである \textbf{MJA} を紹介し,メタファベースの逆数プロンプトを生成することで,攻撃効率とクエリ効率のバランスをとることを目的とした。
具体的には、MJAはLLMベースのマルチエージェント生成モジュール~(MLAG)と対向的なプロンプト最適化モジュール~(APO)の2つのモジュールから構成される。
MLAGは、比喩に基づく逆のプロンプトの生成をメタファー検索、コンテキストマッチング、逆のプロンプト生成という3つのサブタスクに分解する。
その後、MLAGは3つのLSMベースのエージェントを調整し、様々なメタファーや文脈を探索することで、多様な敵のプロンプトを生成する。
攻撃効率を高めるために、APOはまず代理モデルを訓練し、敵のプロンプトの攻撃結果を予測し、次に最適な敵のプロンプトを適応的に識別する獲得戦略を設計する。
実験により、MJAはベースライン法よりも少ないクエリを必要とする一方で、攻撃効率が向上することが示された。
さらに, 各種オープンソースおよび商用T2Iモデルに対して, 高い転送性を示す。
この論文は、攻撃的または苦痛的な材料を含むかもしれないモデル生成コンテンツを含む。
※
関連論文リスト
- Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary [2.4329261266984346]
LLM(Large Language Models)は、有用で安全なコンテンツを生成するように設計されている。
一般的にジェイルブレイクと呼ばれる 敵の攻撃は 安全プロトコルをバイパスできる
LLMのプリフィル機能を利用した新しいジェイルブレイク攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-04-28T07:38:43Z) - Token-Level Constraint Boundary Search for Jailbreaking Text-to-Image Models [20.740929360321747]
テキスト・ツー・イメージ(T2I)生成は、不適切または有害なコンテンツの生成に関連するリスクを引き起こす。
我々は,テキストと画像チェッカーによって定義された決定境界付近のトークンを検索する,クエリベースのブラックボックスジェイルブレイク攻撃であるTBC-Attackを提案する。
提案手法は,T2Iモデルにまたがる最先端のジェイルブレイク攻撃を継続的に上回ります。
論文 参考訳(メタデータ) (2025-04-15T11:53:40Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Ownership Verification with Reasoning [58.57194301645823]
大規模言語モデル (LLM) は、検索強化生成機構 (RAG) を通じて現実のアプリケーションに統合されつつある。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、通常、中毒攻撃を伴う。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - `Do as I say not as I do': A Semi-Automated Approach for Jailbreak Prompt Attack against Multimodal LLMs [6.151779089440453]
マルチモーダル大言語モデル(LLM)に対する最初の音声ベースのジェイルブレイク攻撃を導入する。
本稿では,不許可なプロンプトを,良心的かつ物語駆動的なプロンプトによって側面に配置する,新たな戦略を提案する。
我々は、Flanking Attackは最先端のLLMを操作でき、不整合および禁止された出力を生成することを実証する。
論文 参考訳(メタデータ) (2025-02-02T10:05:08Z) - Autonomous LLM-Enhanced Adversarial Attack for Text-to-Motion [22.666853714543993]
テキスト・トゥ・モーション(T2M)モデルはテキスト・プロンプトからリアルな動きを生成する。
T2Mへの関心が高まったが、敵の攻撃からこれらのモデルを保護することに焦点を当てる手法はほとんどなかった。
ALERT-Motionは,ブラックボックスT2Mモデルに対する敵攻撃を標的とする自律的フレームワークである。
論文 参考訳(メタデータ) (2024-08-01T07:44:11Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - An LLM can Fool Itself: A Prompt-Based Adversarial Attack [26.460067102821476]
本稿では, プロンプトベースの対向攻撃(PromptAttack)を用いて, LLMの対向ロバスト性を評価する効率的なツールを提案する。
PromptAttackは、敵のテキスト攻撃を攻撃プロンプトに変換することで、被害者のLSMが敵のサンプルを不正に出力する可能性がある。
Llama2とGPT-3.5を使った総合的な実験結果から、PromptAttackはAdvGLUEやAdvGLUE++に比べて攻撃成功率がずっと高いことが証明されている。
論文 参考訳(メタデータ) (2023-10-20T08:16:46Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。