論文の概要: Crafting Adversarial Inputs for Large Vision-Language Models Using Black-Box Optimization
- arxiv url: http://arxiv.org/abs/2601.01747v1
- Date: Mon, 05 Jan 2026 02:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.741622
- Title: Crafting Adversarial Inputs for Large Vision-Language Models Using Black-Box Optimization
- Title(参考訳): ブラックボックス最適化を用いた大規模視線モデルに対する逆入力法
- Authors: Jiwei Guan, Haibo Jin, Haohan Wang,
- Abstract要約: 同時摂動近似(ZO-SPSA)を用いたゼロ階最適化によるLVLM(Large Vision-Language Models)に対するブラックボックスジェイルブレイク攻撃を提案する。
InstructBLIP, LLaVA, MiniGPT-4の3つのLVLM上でZO-SPSAを評価し, InstructBLIPのジェイルブレイク成功率は83.0%であった。
これらの知見は、ブラックボックスジェイルブレイクの現実的な実現可能性を強調し、現在のLVLMの安全性メカニズムにおける重大な弱点を明らかにしている。
- 参考スコア(独自算出の注目度): 27.346913473981193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Vision-Language Models (LVLMs) have shown groundbreaking capabilities across diverse multimodal tasks. However, these models remain vulnerable to adversarial jailbreak attacks, where adversaries craft subtle perturbations to bypass safety mechanisms and trigger harmful outputs. Existing white-box attacks methods require full model accessibility, suffer from computing costs and exhibit insufficient adversarial transferability, making them impractical for real-world, black-box settings. To address these limitations, we propose a black-box jailbreak attack on LVLMs via Zeroth-Order optimization using Simultaneous Perturbation Stochastic Approximation (ZO-SPSA). ZO-SPSA provides three key advantages: (i) gradient-free approximation by input-output interactions without requiring model knowledge, (ii) model-agnostic optimization without the surrogate model and (iii) lower resource requirements with reduced GPU memory consumption. We evaluate ZO-SPSA on three LVLMs, including InstructBLIP, LLaVA and MiniGPT-4, achieving the highest jailbreak success rate of 83.0% on InstructBLIP, while maintaining imperceptible perturbations comparable to white-box methods. Moreover, adversarial examples generated from MiniGPT-4 exhibit strong transferability to other LVLMs, with ASR reaching 64.18%. These findings underscore the real-world feasibility of black-box jailbreaks and expose critical weaknesses in the safety mechanisms of current LVLMs
- Abstract(参考訳): LVLM(Large Vision-Language Models)の最近の進歩は、多様なマルチモーダルタスクにまたがる画期的な能力を示している。
しかし、これらのモデルは敵の脱獄攻撃に弱いままであり、敵は安全機構をバイパスし有害な出力を誘導するために微妙な摂動を仕掛けている。
既存のホワイトボックス攻撃手法では、完全なモデルアクセシビリティが必要であり、計算コストに悩まされ、敵の移動性が不十分であり、現実のブラックボックス設定では実用的ではない。
これらの制約に対処するため,ZO-SPSA (Sultaneous Perturbation Stochastic Approximation) を用いたゼロ階最適化によるLVLMに対するブラックボックスジェイルブレイク攻撃を提案する。
ZO-SPSAには3つの利点がある。
(i)モデル知識を必要としない入力-出力相互作用による勾配自由近似
(II)代用モデルと非代用モデルのないモデル非依存の最適化
(iii)GPUメモリ使用量の削減によるリソース要求の低減。
InstructBLIP, LLaVA, MiniGPT-4の3つのLVLM上でZO-SPSAを評価し, InstructBLIPのジェイルブレイク成功率は83.0%であり, ホワイトボックス法に匹敵する知覚不能な摂動を維持した。
さらに、MiniGPT-4から生成された敵の例は、他のLVLMへの強い転送可能性を示し、ASRは64.18%に達した。
これらの知見は、ブラックボックスジェイルブレイクの現実的実現可能性と、現在のLVLMの安全性機構における重大な弱点を明らかにするものである。
関連論文リスト
- Towards Robust Multimodal Large Language Models Against Jailbreak Attacks [24.491648943977605]
本稿では,敵対的雑音を発生させる攻撃ステップとモデル更新ステップとを交互に行うSafeMLLMを紹介する。
攻撃ステップでは、SafeMLLMは新たに提案されたコントラスト埋め込み攻撃(CoE-Attack)を通じて敵の摂動を発生させる。
我々は,SafeMLLMを6つのMLLMと6つのジェイルブレイク法で比較した。
論文 参考訳(メタデータ) (2025-02-02T03:45:49Z) - PBI-Attack: Prior-Guided Bimodal Interactive Black-Box Jailbreak Attack for Toxicity Maximization [20.361084019182776]
そこで本研究では,前誘導バイモーダル対話型ブラックボックスジェイルブレイク攻撃による毒性評価を提案する。
本手法は,LVLMを用いて有害なコーパスから有害な特徴を抽出することから始める。
双方向の相互モーダル相互作用最適化により,これらの特徴を向上する。
実験によると、PBI-Attackは従来の最先端のジェイルブレイク手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-08T11:14:16Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。