論文の概要: Metaphor-based Jailbreaking Attacks on Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2512.10766v1
- Date: Sat, 06 Dec 2025 12:38:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.456604
- Title: Metaphor-based Jailbreaking Attacks on Text-to-Image Models
- Title(参考訳): テキスト・画像モデルを用いたメタファーによる脱獄攻撃
- Authors: Chenyu Zhang, Yiwen Ma, Lanjun Wang, Wenhui Li, Yi Tu, An-An Liu,
- Abstract要約: textbfMJA は textbfmetaphor ベースの textbfjailbreaking textbf attack method で、Taboo ゲームにインスパイアされた。
様々な防御機構を事前に知ることなく効果的に攻撃する。
- 参考スコア(独自算出の注目度): 41.420325236578755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image~(T2I) models commonly incorporate defense mechanisms to prevent the generation of sensitive images. Unfortunately, recent jailbreaking attacks have shown that adversarial prompts can effectively bypass these mechanisms and induce T2I models to produce sensitive content, revealing critical safety vulnerabilities. However, existing attack methods implicitly assume that the attacker knows the type of deployed defenses, which limits their effectiveness against unknown or diverse defense mechanisms. In this work, we introduce \textbf{MJA}, a \textbf{m}etaphor-based \textbf{j}ailbreaking \textbf{a}ttack method inspired by the Taboo game, aiming to effectively and efficiently attack diverse defense mechanisms without prior knowledge of their type by generating metaphor-based adversarial prompts. Specifically, MJA consists of two modules: an LLM-based multi-agent generation module~(MLAG) and an adversarial prompt optimization module~(APO). MLAG decomposes the generation of metaphor-based adversarial prompts into three subtasks: metaphor retrieval, context matching, and adversarial prompt generation. Subsequently, MLAG coordinates three LLM-based agents to generate diverse adversarial prompts by exploring various metaphors and contexts. To enhance attack efficiency, APO first trains a surrogate model to predict the attack results of adversarial prompts and then designs an acquisition strategy to adaptively identify optimal adversarial prompts. Extensive experiments on T2I models with various external and internal defense mechanisms demonstrate that MJA outperforms six baseline methods, achieving stronger attack performance while using fewer queries. Code is available in https://github.com/datar001/metaphor-based-jailbreaking-attack.
- Abstract(参考訳): Text-to-image~(T2I)モデルは一般的に、機密画像の生成を防ぐための防御機構を組み込んでいる。
残念なことに、最近のジェイルブレイク攻撃は、敵のプロンプトがこれらのメカニズムを効果的に回避し、T2Iモデルを誘導し、機密性の高いコンテンツを生成し、重大な安全性の脆弱性を明らかにすることを示している。
しかし、既存の攻撃方法は、攻撃者が展開された防御のタイプを知っていると暗黙的に仮定している。
本研究では,Taboo ゲームに触発された \textbf{m}etaphor-based \textbf{j}ailbreaking \textbf{a}ttack method を紹介する。
具体的には、MJAはLLMベースのマルチエージェント生成モジュール~(MLAG)と対向的なプロンプト最適化モジュール~(APO)の2つのモジュールから構成される。
MLAGは、比喩に基づく逆のプロンプトの生成をメタファー検索、コンテキストマッチング、逆のプロンプト生成という3つのサブタスクに分解する。
その後、MLAGは3つのLSMベースのエージェントを調整し、様々なメタファーや文脈を探索することで、多様な敵のプロンプトを生成する。
攻撃効率を高めるために、APOはまず代理モデルを訓練し、敵対的プロンプトの攻撃結果を予測し、次に最適な敵的プロンプトを適応的に識別する獲得戦略を設計する。
様々な外部および内部防御機構を持つT2Iモデルに対する大規模な実験により、MJAは6つのベースライン法より優れており、より少ないクエリを使用しながら攻撃性能が向上することが示された。
コードはhttps://github.com/datar001/metaphor-based-jailbreaking- attackで公開されている。
関連論文リスト
- RunawayEvil: Jailbreaking the Image-to-Video Generative Models [59.21761412103083]
イメージ・トゥ・ビデオ(I2V)生成は、画像とテキスト入力から動的視覚コンテンツを合成し、創造的なコントロールを提供する。
本稿では,動的進化機能を備えたI2VモデルのマルチモーダルジェイルブレイクフレームワークであるRunawayEvilを提案する。
RunawayEvil は Open-Sora 2.0 や CogVideoX などの商用 I2V モデルに対して,最先端の攻撃成功率を実現している。
論文 参考訳(メタデータ) (2025-12-07T06:14:52Z) - MetaDefense: Defending Finetuning-based Jailbreak Attack Before and During Generation [36.35944458936016]
本稿では,大規模言語モデル(LLM)におけるファインタニングベースのジェイルブレイク攻撃を防御する新しい枠組みを提案する。
本稿では、応答生成開始前に有害なクエリを検出する前世代防御と、より有害なコンテンツを出力しないように生成中の部分的な応答を監視する中世代防衛という2段階防衛手法を提案する。
我々のMetaDefenseはLSMを訓練し、特定のプロンプトを使ってクエリと部分応答の両方の有害性を予測し、潜在的に有害な相互作用の早期終了を可能にする。
論文 参考訳(メタデータ) (2025-10-09T06:27:34Z) - Improving Large Language Model Safety with Contrastive Representation Learning [92.79965952162298]
大規模言語モデル(LLM)は、社会に深い影響を与える強力なツールである。
多様な制御されていない入力に対する応答を生成する能力は、敵の攻撃に対して脆弱である。
対照的な表現学習問題としてモデルディフェンスを定式化するディフェンスフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T16:42:09Z) - Implicit Jailbreak Attacks via Cross-Modal Information Concealment on Vision-Language Models [20.99874786089634]
以前のジェイルブレイク攻撃は、しばしば悪意のある命令をテキストから視覚など、整合性の低いモダリティに注入する。
IJAと呼ばれる新しい暗黙のジェイルブレイクフレームワークを提案し、少なくとも重要なビットステガノグラフィーによって悪意ある命令を画像に密かに埋め込む。
GPT-4o や Gemini-1.5 Pro などの商用モデルでは,攻撃成功率は90% 以上で,平均 3 クエリのみを用いて達成している。
論文 参考訳(メタデータ) (2025-05-22T09:34:47Z) - AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。
本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。
我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文 参考訳(メタデータ) (2025-04-18T08:38:56Z) - Reason2Attack: Jailbreaking Text-to-Image Models via LLM Reasoning [34.73320827764541]
テキスト・トゥ・イメージ(T2I)モデルは一般的に、機密画像の発生を防ぐために安全フィルタを配置する。
最近のジェイルブレイク攻撃手法は、LSMが敵のプロンプトを生成するように手動で設計する。
本稿では,LLMの推論能力を高めることを目的としたReason2Attack(R2A)を提案する。
論文 参考訳(メタデータ) (2025-03-23T08:40:39Z) - CtrlRAG: Black-box Adversarial Attacks Based on Masked Language Models in Retrieval-Augmented Language Generation [0.0]
Retrieval-Augmented Generation (RAG) システムは、外部知識ベースを統合することにより、Large Language Models (LLM) を強化する。
我々は,実世界のシナリオに合わせて,ブラックボックス設定におけるRAGシステムのための新たな攻撃手法であるCtrlRAGを提案する。
実験の結果,CtrlRAGは情動操作と幻覚増幅の両目的において3つのベースライン法より優れていた。
論文 参考訳(メタデータ) (2025-03-10T05:55:15Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。