論文の概要: Simulated Ensemble Attack: Transferring Jailbreaks Across Fine-tuned Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.01741v1
- Date: Sun, 03 Aug 2025 12:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.041428
- Title: Simulated Ensemble Attack: Transferring Jailbreaks Across Fine-tuned Vision-Language Models
- Title(参考訳): シミュレート・アンサンブル・アタック:細調整された視覚言語モデル間のジェイルブレイクの転送
- Authors: Ruofan Wang, Xin Wang, Yang Yao, Xuan Tong, Xingjun Ma,
- Abstract要約: 微調整のオープンソースVision-Language Models (VLM) は、重要で未探索の攻撃面を生成する。
我々は,新しいグレーボックスジェイルブレイク法であるシミュレート・アンサンブル・アタック(SEA)を導入する。
SEAはベースモデルから継承した脆弱性を悪用し、転送可能性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 24.65236224895181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning open-source Vision-Language Models (VLMs) creates a critical yet underexplored attack surface: vulnerabilities in the base VLM could be retained in fine-tuned variants, rendering them susceptible to transferable jailbreak attacks. To demonstrate this risk, we introduce the Simulated Ensemble Attack (SEA), a novel grey-box jailbreak method in which the adversary has full access to the base VLM but no knowledge of the fine-tuned target's weights or training configuration. To improve jailbreak transferability across fine-tuned VLMs, SEA combines two key techniques: Fine-tuning Trajectory Simulation (FTS) and Targeted Prompt Guidance (TPG). FTS generates transferable adversarial images by simulating the vision encoder's parameter shifts, while TPG is a textual strategy that steers the language decoder toward adversarially optimized outputs. Experiments on the Qwen2-VL family (2B and 7B) demonstrate that SEA achieves high transfer attack success rates exceeding 86.5% and toxicity rates near 49.5% across diverse fine-tuned variants, even those specifically fine-tuned to improve safety behaviors. Notably, while direct PGD-based image jailbreaks rarely transfer across fine-tuned VLMs, SEA reliably exploits inherited vulnerabilities from the base model, significantly enhancing transferability. These findings highlight an urgent need to safeguard fine-tuned proprietary VLMs against transferable vulnerabilities inherited from open-source foundations, motivating the development of holistic defenses across the entire model lifecycle.
- Abstract(参考訳): 細調整されたオープンソースのVision-Language Models (VLM) は、重要で未発見の攻撃面を生成する。
このリスクを実証するために,敵がベースVLMにフルアクセスするが,微調整対象の重み付けやトレーニング設定の知識がない,新しいグレーボックスジェイルブレイク手法であるシミュレート・アンサンブル・アタック(SEA)を導入する。
細調整されたVLM間のジェイルブレイク転送性を改善するため、SEAは細調整軌道シミュレーション(FTS)とTargeted Prompt Guidance(TPG)という2つの重要な技術を組み合わせている。
FTSは、視覚エンコーダのパラメータシフトをシミュレートすることで、転送可能な逆画像を生成する一方、TPGは、言語デコーダを逆最適化された出力に操るテキスト戦略である。
Qwen2-VLファミリー(2Bと7B)の実験では、SEAが86.5%以上の高いトランスファー攻撃成功率と49.5%に近い毒性率を達成している。
特に、PGDベースのイメージジェイルブレイクは細調整されたVLM間での転送はめったにないが、SEAはベースモデルから継承された脆弱性を確実に利用し、転送可能性を大幅に向上させる。
これらの知見は、オープンソース基盤から継承された移植可能な脆弱性に対して、微調整されたプロプライエタリなVLMを緊急に保護することの必要性を強調し、モデルライフサイクル全体にわたる全体的防御の開発を動機付けている。
関連論文リスト
- Advancing Jailbreak Strategies: A Hybrid Approach to Exploiting LLM Vulnerabilities and Bypassing Modern Defenses [4.706534644850809]
2つの主要な推論フェーズの脅威はトークンレベルとプロンプトレベルのジェイルブレイクである。
トークンレベルの手法とプロンプトレベルの手法を統合した2つのハイブリッドアプローチを提案し,多様なPTLMにおけるジェイルブレイクの有効性を向上する。
論文 参考訳(メタデータ) (2025-06-27T07:26:33Z) - Robustifying Vision-Language Models via Dynamic Token Reweighting [28.675118345987887]
大きな視覚言語モデル(VLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
マルチモーダル・ジェイルブレイク攻撃を緩和する新しい推論時防御法を提案する。
視覚的モダリティによって誘導される安全関連分布シフトの新しい定式化を導入する。
論文 参考訳(メタデータ) (2025-05-22T03:00:39Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - Guiding not Forcing: Enhancing the Transferability of Jailbreaking Attacks on LLMs via Removing Superfluous Constraints [81.14852921721793]
本研究の目的は,勾配に基づくジェイルブレイク手法の伝達可能性を理解し,向上することである。
本稿では,トランスファービリティを解明し,過剰な制約を識別するための新しい概念的枠組みを提案する。
提案手法は, 安全レベルを18.4%から50.3%に変化させたターゲットモデル全体のトランスファー攻撃成功率(T-ASR)を増加させる。
論文 参考訳(メタデータ) (2025-02-25T07:47:41Z) - Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [64.46372846359694]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。
最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。
例えば、GPT-4oで46.31%、Claude-3.5-Sonnetで19.65%のASRを達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks [0.0]
LVLM(Large Vision-Language Models)は、視覚言語タスクに優れたAIである。
ジェイルブレイクは安全プロトコルをバイパスし、モデルが誤解を招くまたは有害な応答を発生させる。
シームズアーキテクチャを利用してCLIPビジョンエンコーダを逆さまに微調整する新しい防御機構であるSim-CLIP+を提案する。
論文 参考訳(メタデータ) (2024-09-11T15:39:42Z) - Failures to Find Transferable Image Jailbreaks Between Vision-Language Models [20.385314634225978]
視覚およびテキスト入力に条件付けされたテキスト出力を生成する視覚言語モデル(VLM)の一般的なクラスに焦点を当てる。
転送可能な勾配に基づく画像ジェイルブレイクは、取得が極めて困難である。
論文 参考訳(メタデータ) (2024-07-21T16:27:24Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。