論文の概要: Defense-to-Attack: Bypassing Weak Defenses Enables Stronger Jailbreaks in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.12724v1
- Date: Tue, 16 Sep 2025 06:25:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.922862
- Title: Defense-to-Attack: Bypassing Weak Defenses Enables Stronger Jailbreaks in Vision-Language Models
- Title(参考訳): ディフェンス・トゥ・アタック(Defense-to-Attack):ビジョンランゲージモデルでより強力なジェイルブレイクを可能にする弱防御をバイパスする
- Authors: Yunhan Zhao, Xiang Zheng, Xingjun Ma,
- Abstract要約: Defense2Attackは、Vision-Language Modelsの安全ガードレールをバイパスする新しいジェイルブレイク手法である。
Defense2Attackは単一の試行で優れたジェイルブレイク性能を達成し、最先端の攻撃方法より優れている。
- 参考スコア(独自算出の注目度): 32.752269224536754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their superb capabilities, Vision-Language Models (VLMs) have been shown to be vulnerable to jailbreak attacks. While recent jailbreaks have achieved notable progress, their effectiveness and efficiency can still be improved. In this work, we reveal an interesting phenomenon: incorporating weak defense into the attack pipeline can significantly enhance both the effectiveness and the efficiency of jailbreaks on VLMs. Building on this insight, we propose Defense2Attack, a novel jailbreak method that bypasses the safety guardrails of VLMs by leveraging defensive patterns to guide jailbreak prompt design. Specifically, Defense2Attack consists of three key components: (1) a visual optimizer that embeds universal adversarial perturbations with affirmative and encouraging semantics; (2) a textual optimizer that refines the input using a defense-styled prompt; and (3) a red-team suffix generator that enhances the jailbreak through reinforcement fine-tuning. We empirically evaluate our method on four VLMs and four safety benchmarks. The results demonstrate that Defense2Attack achieves superior jailbreak performance in a single attempt, outperforming state-of-the-art attack methods that often require multiple tries. Our work offers a new perspective on jailbreaking VLMs.
- Abstract(参考訳): その超能力にもかかわらず、ヴィジュアル・ランゲージ・モデル(VLM)はジェイルブレイク攻撃に弱いことが示されている。
最近のジェイルブレイクは目覚ましい進歩を遂げているが、その効果と効率性はまだ改善されている。
本稿では,攻撃パイプラインに弱い防御を組み込むことで,VLMにおけるジェイルブレイクの有効性と効率を大幅に向上させることができる,という興味深い現象を明らかにする。
この知見に基づいて,防衛パターンを活用してジェイルブレイク即時設計を誘導することにより,VLMの安全ガードレールをバイパスする新しいジェイルブレイク手法であるDefense2Attackを提案する。
特に、Defense2Attackは、3つの重要なコンポーネントで構成されている。(1)普遍的敵の摂動を肯定的かつ奨励的な意味論で埋め込むビジュアルオプティマイザ、(2)防衛スタイルのプロンプトを用いて入力を洗練するテキストオプティマイザ、(3)強化微調整によりジェイルブレイクを強化するレッドチームサフィックスジェネレータである。
提案手法を4つのVLMと4つの安全性ベンチマークで実証的に評価した。
その結果、Defense2Attackは単一の試行において優れたジェイルブレイク性能を達成し、複数の試行を必要とするような最先端の攻撃方法よりも優れていることが示された。
私たちの仕事は、Jailbreaking VLMに関する新しい視点を提供します。
関連論文リスト
- Proactive defense against LLM Jailbreak [28.249786308207046]
ProActは、自律的な脱獄プロセスを妨害し、誤解を招くように設計された、新しいプロアクティブな防御フレームワークである。
本手法は攻撃成功率を最大92%削減する。
論文 参考訳(メタデータ) (2025-10-06T17:32:40Z) - Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models [80.66766532477973]
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
論文 参考訳(メタデータ) (2025-05-28T11:57:46Z) - One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs [13.54228868302755]
ArrAttackは、防衛された大規模言語モデル(LLM)をターゲットにした攻撃方法である。
ArrAttackは、様々な防御措置をバイパスできる堅牢なジェイルブレイクプロンプトを自動的に生成する。
私たちの仕事は、ジェイルブレイク攻撃と防衛のギャップを埋め、堅牢なジェイルブレイクプロンプトを生成するための新たな視点を提供します。
論文 参考訳(メタデータ) (2025-05-23T08:02:38Z) - JailPO: A Novel Black-box Jailbreak Framework via Preference Optimization against Aligned LLMs [11.924542310342282]
我々は、LLM(Large Language Models)アライメントを調べるための新しいブラックボックスジェイルブレイクフレームワークであるJailPOを紹介する。
スケーラビリティと普遍性のために、JailPOは攻撃モデルを慎重に訓練し、隠蔽されたジェイルブレイクプロンプトを自動的に生成する。
また、優先最適化に基づく攻撃手法を導入し、ジェイルブレイクの有効性を高める。
論文 参考訳(メタデータ) (2024-12-20T07:29:10Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - Transferable Ensemble Black-box Jailbreak Attacks on Large Language Models [0.0]
我々は,様々なLSM-as-Attackerメソッドを組み込んだ新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
本手法は,既存のジェイルブレイク研究と実践から得られた3つの重要な知見に基づいて設計されている。
論文 参考訳(メタデータ) (2024-10-31T01:55:33Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [70.43466586161345]
ブラックボックス・ジェイルブレイク攻撃のための悪意ある画像テキストペアを自律的に生成する新しいジェイルブレイク手法であるIDEATORを提案する。
本稿では,IDEATORの高効率性と転送性を示し,MiniGPT-4の脱獄において94%の攻撃成功率(ASR)を達成した。
IDEATORの強い転送性と自動化プロセスに基づいて,3,654個のマルチモーダルジェイルブレイクサンプルからなる安全性ベンチマークであるVLJailbreakBenchを紹介した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks [62.58434630634917]
本稿では,ターゲットVLMをジェイルブレイク攻撃から防御するブルーチーム方式のBlueSuffixを提案する。
BlueSuffixには、1)jailbreakイメージに対する視覚的パーファイア、2)jailbreakテキストに対するテキストパーファイア、3)Blue-teamサフィックスジェネレータの3つの重要なコンポーネントが含まれている。
我々はBlueSuffixがベースラインディフェンスを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-10-28T12:43:47Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。
主要なjailbreak攻撃に対して,メインストリームのGPT-3.5/4モデルを使用することを実証的に検証した。
防衛の堅牢性をさらに向上し、コストを最小化するために、我々は専用のオープンソース防衛モデルをチューニングするためにデータ蒸留アプローチを採用している。
論文 参考訳(メタデータ) (2024-06-08T15:45:31Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。