論文の概要: Defense-to-Attack: Bypassing Weak Defenses Enables Stronger Jailbreaks in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.12724v1
- Date: Tue, 16 Sep 2025 06:25:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.922862
- Title: Defense-to-Attack: Bypassing Weak Defenses Enables Stronger Jailbreaks in Vision-Language Models
- Title(参考訳): ディフェンス・トゥ・アタック(Defense-to-Attack):ビジョンランゲージモデルでより強力なジェイルブレイクを可能にする弱防御をバイパスする
- Authors: Yunhan Zhao, Xiang Zheng, Xingjun Ma,
- Abstract要約: Defense2Attackは、Vision-Language Modelsの安全ガードレールをバイパスする新しいジェイルブレイク手法である。
Defense2Attackは単一の試行で優れたジェイルブレイク性能を達成し、最先端の攻撃方法より優れている。
- 参考スコア(独自算出の注目度): 32.752269224536754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their superb capabilities, Vision-Language Models (VLMs) have been shown to be vulnerable to jailbreak attacks. While recent jailbreaks have achieved notable progress, their effectiveness and efficiency can still be improved. In this work, we reveal an interesting phenomenon: incorporating weak defense into the attack pipeline can significantly enhance both the effectiveness and the efficiency of jailbreaks on VLMs. Building on this insight, we propose Defense2Attack, a novel jailbreak method that bypasses the safety guardrails of VLMs by leveraging defensive patterns to guide jailbreak prompt design. Specifically, Defense2Attack consists of three key components: (1) a visual optimizer that embeds universal adversarial perturbations with affirmative and encouraging semantics; (2) a textual optimizer that refines the input using a defense-styled prompt; and (3) a red-team suffix generator that enhances the jailbreak through reinforcement fine-tuning. We empirically evaluate our method on four VLMs and four safety benchmarks. The results demonstrate that Defense2Attack achieves superior jailbreak performance in a single attempt, outperforming state-of-the-art attack methods that often require multiple tries. Our work offers a new perspective on jailbreaking VLMs.
- Abstract(参考訳): その超能力にもかかわらず、ヴィジュアル・ランゲージ・モデル(VLM)はジェイルブレイク攻撃に弱いことが示されている。
最近のジェイルブレイクは目覚ましい進歩を遂げているが、その効果と効率性はまだ改善されている。
本稿では,攻撃パイプラインに弱い防御を組み込むことで,VLMにおけるジェイルブレイクの有効性と効率を大幅に向上させることができる,という興味深い現象を明らかにする。
この知見に基づいて,防衛パターンを活用してジェイルブレイク即時設計を誘導することにより,VLMの安全ガードレールをバイパスする新しいジェイルブレイク手法であるDefense2Attackを提案する。
特に、Defense2Attackは、3つの重要なコンポーネントで構成されている。(1)普遍的敵の摂動を肯定的かつ奨励的な意味論で埋め込むビジュアルオプティマイザ、(2)防衛スタイルのプロンプトを用いて入力を洗練するテキストオプティマイザ、(3)強化微調整によりジェイルブレイクを強化するレッドチームサフィックスジェネレータである。
提案手法を4つのVLMと4つの安全性ベンチマークで実証的に評価した。
その結果、Defense2Attackは単一の試行において優れたジェイルブレイク性能を達成し、複数の試行を必要とするような最先端の攻撃方法よりも優れていることが示された。
私たちの仕事は、Jailbreaking VLMに関する新しい視点を提供します。
関連論文リスト
- Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models [80.66766532477973]
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
論文 参考訳(メタデータ) (2025-05-28T11:57:46Z) - One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs [13.54228868302755]
ArrAttackは、防衛された大規模言語モデル(LLM)をターゲットにした攻撃方法である。
ArrAttackは、様々な防御措置をバイパスできる堅牢なジェイルブレイクプロンプトを自動的に生成する。
私たちの仕事は、ジェイルブレイク攻撃と防衛のギャップを埋め、堅牢なジェイルブレイクプロンプトを生成するための新たな視点を提供します。
論文 参考訳(メタデータ) (2025-05-23T08:02:38Z) - JailPO: A Novel Black-box Jailbreak Framework via Preference Optimization against Aligned LLMs [11.924542310342282]
我々は、LLM(Large Language Models)アライメントを調べるための新しいブラックボックスジェイルブレイクフレームワークであるJailPOを紹介する。
スケーラビリティと普遍性のために、JailPOは攻撃モデルを慎重に訓練し、隠蔽されたジェイルブレイクプロンプトを自動的に生成する。
また、優先最適化に基づく攻撃手法を導入し、ジェイルブレイクの有効性を高める。
論文 参考訳(メタデータ) (2024-12-20T07:29:10Z) - Transferable Ensemble Black-box Jailbreak Attacks on Large Language Models [0.0]
我々は,様々なLSM-as-Attackerメソッドを組み込んだ新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
本手法は,既存のジェイルブレイク研究と実践から得られた3つの重要な知見に基づいて設計されている。
論文 参考訳(メタデータ) (2024-10-31T01:55:33Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [70.43466586161345]
ブラックボックス・ジェイルブレイク攻撃のための悪意ある画像テキストペアを自律的に生成する新しいジェイルブレイク手法であるIDEATORを提案する。
本稿では,IDEATORの高効率性と転送性を示し,MiniGPT-4の脱獄において94%の攻撃成功率(ASR)を達成した。
IDEATORの強い転送性と自動化プロセスに基づいて,3,654個のマルチモーダルジェイルブレイクサンプルからなる安全性ベンチマークであるVLJailbreakBenchを紹介した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks [62.58434630634917]
本稿では,ターゲットVLMをジェイルブレイク攻撃から防御するブルーチーム方式のBlueSuffixを提案する。
BlueSuffixには、1)jailbreakイメージに対する視覚的パーファイア、2)jailbreakテキストに対するテキストパーファイア、3)Blue-teamサフィックスジェネレータの3つの重要なコンポーネントが含まれている。
我々はBlueSuffixがベースラインディフェンスを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-10-28T12:43:47Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。