論文の概要: VERA-V: Variational Inference Framework for Jailbreaking Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.17759v1
- Date: Mon, 20 Oct 2025 17:12:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.541099
- Title: VERA-V: Variational Inference Framework for Jailbreaking Vision-Language Models
- Title(参考訳): VERA-V:視覚言語モデルのジェイルブレークのための変分推論フレームワーク
- Authors: Qilin Liao, Anamika Lochab, Ruqi Zhang,
- Abstract要約: 本稿では,マルチモーダルなジェイルブレイク発見を,ペア化されたテキストイメージプロンプト上での連立後続分布学習として再放送する変分推論フレームワークVERA-Vを紹介する。
我々は、後方に近づいた軽量攻撃者を訓練し、多様なジェイルブレイクの効率的なサンプリングを可能にした。
HarmBenchとHADESベンチマークの実験では、VERA-Vは最先端のベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 19.867040067010674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) extend large language models with visual reasoning, but their multimodal design also introduces new, underexplored vulnerabilities. Existing multimodal red-teaming methods largely rely on brittle templates, focus on single-attack settings, and expose only a narrow subset of vulnerabilities. To address these limitations, we introduce VERA-V, a variational inference framework that recasts multimodal jailbreak discovery as learning a joint posterior distribution over paired text-image prompts. This probabilistic view enables the generation of stealthy, coupled adversarial inputs that bypass model guardrails. We train a lightweight attacker to approximate the posterior, allowing efficient sampling of diverse jailbreaks and providing distributional insights into vulnerabilities. VERA-V further integrates three complementary strategies: (i) typography-based text prompts that embed harmful cues, (ii) diffusion-based image synthesis that introduces adversarial signals, and (iii) structured distractors to fragment VLM attention. Experiments on HarmBench and HADES benchmarks show that VERA-V consistently outperforms state-of-the-art baselines on both open-source and frontier VLMs, achieving up to 53.75% higher attack success rate (ASR) over the best baseline on GPT-4o.
- Abstract(参考訳): Vision-Language Models (VLM) は、視覚的推論で大きな言語モデルを拡張するが、そのマルチモーダルデザインは、新しい、未発見の脆弱性も導入している。
既存のマルチモーダルなレッドチーム方式は、主に脆いテンプレートに依存し、シングルアタック設定に重点を置いており、脆弱性のごく一部しか公開していない。
これらの制約に対処するために,複数モーダルなジェイルブレイク発見を,ペア化されたテキストイメージプロンプト上での共用後部分布の学習として再放送する変分推論フレームワークVERA-Vを導入する。
この確率論的視点は、モデルガードレールをバイパスするステルス、結合された逆入力の生成を可能にする。
我々は、後方に近づいた軽量攻撃者を訓練し、多様なジェイルブレイクの効率的なサンプリングを可能にし、脆弱性に対する分散的な洞察を提供する。
VERA-Vはさらに3つの補完戦略を統合する。
(i) 有害な手がかりを埋め込むタイポグラフィーベースのテキストプロンプト
(II)対向信号を導入した拡散に基づく画像合成、及び
(III)VLMの注意を断片化するための構造的イントラクタ。
HarmBench と HADES のベンチマーク実験では、VERA-V はオープンソースとフロンティア両方の VLM の最先端ベースラインを一貫して上回り、GPT-4o の最高のベースラインよりも最大53.75%高い攻撃成功率(ASR)を達成した。
関連論文リスト
- Implicit Jailbreak Attacks via Cross-Modal Information Concealment on Vision-Language Models [20.99874786089634]
以前のジェイルブレイク攻撃は、しばしば悪意のある命令をテキストから視覚など、整合性の低いモダリティに注入する。
IJAと呼ばれる新しい暗黙のジェイルブレイクフレームワークを提案し、少なくとも重要なビットステガノグラフィーによって悪意ある命令を画像に密かに埋め込む。
GPT-4o や Gemini-1.5 Pro などの商用モデルでは,攻撃成功率は90% 以上で,平均 3 クエリのみを用いて達成している。
論文 参考訳(メタデータ) (2025-05-22T09:34:47Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Distraction is All You Need for Multimodal Large Language Model Jailbreaking [14.787247403225294]
マルチレベル・トラクション戦略によりMLLMのアライメントを阻害する手法として,CS-DJ(Contrasting Subimage Distraction Jailbreaking)を提案する。
CS-DJは平均成功率52.40%、アンサンブル攻撃成功率74.10%を達成している。
これらの結果から,MLLMの防御を活用・回避するための散逸に基づくアプローチの可能性を明らかにした。
論文 参考訳(メタデータ) (2025-02-15T13:25:12Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via
Pre-trained Models [46.14455492739906]
VL(Vision-Language)事前訓練モデルは、多くのマルチモーダルタスクにおいて優位性を示している。
既存のアプローチは主に、ホワイトボックス設定下での敵の堅牢性を探究することに焦点を当てている。
本稿では,VLATTACKを用いて,画像とテキストの摂動を単一モードレベルとマルチモードレベルの両方から分離し,対向サンプルを生成する。
論文 参考訳(メタデータ) (2023-10-07T02:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。