論文の概要: Robustness of Vision Language Models Against Split-Image Harmful Input Attacks
- arxiv url: http://arxiv.org/abs/2602.08136v1
- Date: Sun, 08 Feb 2026 21:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.996993
- Title: Robustness of Vision Language Models Against Split-Image Harmful Input Attacks
- Title(参考訳): 分割画像の有害な入力攻撃に対する視覚言語モデルのロバスト性
- Authors: Md Rafi Ur Rashid, MD Sadik Hossain Shanto, Vishnu Asutosh Dasu, Shagufta Mehnaz,
- Abstract要約: VLM(Vision-Language Models)は現在、現代AIの中核部分となっている。
最近の研究では、単一/全体像を用いた視覚的ジェイルブレイク攻撃が提案されている。
本稿では,この誤認識を生かした新しい分割画像視覚ジェイルブレイク攻撃(SIVA)を提案する。
- 参考スコア(独自算出の注目度): 4.937150501683971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are now a core part of modern AI. Recent work proposed several visual jailbreak attacks using single/ holistic images. However, contemporary VLMs demonstrate strong robustness against such attacks due to extensive safety alignment through preference optimization (e.g., RLHF). In this work, we identify a new vulnerability: while VLM pretraining and instruction tuning generalize well to split-image inputs, safety alignment is typically performed only on holistic images and does not account for harmful semantics distributed across multiple image fragments. Consequently, VLMs often fail to detect and refuse harmful split-image inputs, where unsafe cues emerge only after combining images. We introduce novel split-image visual jailbreak attacks (SIVA) that exploit this misalignment. Unlike prior optimization-based attacks, which exhibit poor black-box transferability due to architectural and prior mismatches across models, our attacks evolve in progressive phases from naive splitting to an adaptive white-box attack, culminating in a black-box transfer attack. Our strongest strategy leverages a novel adversarial knowledge distillation (Adv-KD) algorithm to substantially improve cross-model transferability. Evaluations on three state-of-the-art modern VLMs and three jailbreak datasets demonstrate that our strongest attack achieves up to 60% higher transfer success than existing baselines. Lastly, we propose efficient ways to address this critical vulnerability in the current VLM safety alignment.
- Abstract(参考訳): VLM(Vision-Language Models)は現在、現代AIの中核部分となっている。
最近の研究では、単一/全体像を用いた視覚的ジェイルブレイク攻撃が提案されている。
しかし、現代のVLMは、優先最適化(例えば、RLHF)による広範囲な安全確保のため、このような攻撃に対して強い堅牢性を示す。
本研究は, VLM事前学習と指導訓練が分割画像入力によく当てはまる一方で, 安全アライメントは通常, 全体像にのみ適用され, 複数の画像フラグメントに分散する有害なセマンティクスを考慮しない。
したがって、VLMは、画像の組み合わせ後にのみ安全でないキューが現れる有害な分割イメージ入力を検出し、拒否することができないことが多い。
本稿では,この誤認識を生かした新しい分割画像視覚ジェイルブレイク攻撃(SIVA)を提案する。
アーキテクチャ上のミスマッチやモデル間の事前ミスマッチによるブラックボックス転送性が低い従来の最適化ベースアタックとは異なり、我々のアタックはナイーブ分割から適応的なホワイトボックスアタックへと進化し、ブラックボックス転送アタックに終止符を打つ。
我々の最強戦略は、新しい逆知識蒸留(Adv-KD)アルゴリズムを利用して、クロスモデル転送性を大幅に向上させる。
最新の3つのVLMと3つのジェイルブレイクデータセットの評価は、我々の最強攻撃が既存のベースラインよりも最大60%高い転送成功を達成していることを示している。
最後に、現在のVLM安全アライメントにおいて、この重要な脆弱性に対処する効率的な方法を提案する。
関連論文リスト
- Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models [54.61181161508336]
MFA(Multi-Faceted Attack)は、防衛装備型ビジョンランゲージモデル(VLM)の一般的な安全性上の脆弱性を明らかにするフレームワークである。
MFAの中核となるコンポーネントはアテンション・トランスファー・アタック(ATA)であり、競合する目的を持ったメタタスク内に有害な命令を隠す。
MFAは58.5%の成功率を獲得し、既存の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-20T07:12:54Z) - Robustifying Vision-Language Models via Dynamic Token Reweighting [28.675118345987887]
大きな視覚言語モデル(VLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
マルチモーダル・ジェイルブレイク攻撃を緩和する新しい推論時防御法を提案する。
視覚的モダリティによって誘導される安全関連分布シフトの新しい定式化を導入する。
論文 参考訳(メタデータ) (2025-05-22T03:00:39Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via
Pre-trained Models [46.14455492739906]
VL(Vision-Language)事前訓練モデルは、多くのマルチモーダルタスクにおいて優位性を示している。
既存のアプローチは主に、ホワイトボックス設定下での敵の堅牢性を探究することに焦点を当てている。
本稿では,VLATTACKを用いて,画像とテキストの摂動を単一モードレベルとマルチモードレベルの両方から分離し,対向サンプルを生成する。
論文 参考訳(メタデータ) (2023-10-07T02:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。