論文の概要: Understanding and Enhancing Encoder-based Adversarial Transferability against Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.09431v1
- Date: Tue, 10 Feb 2026 05:51:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.391613
- Title: Understanding and Enhancing Encoder-based Adversarial Transferability against Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルに対するエンコーダに基づく逆変換可能性の理解と向上
- Authors: Xinwei Zhang, Li Bai, Tianwei Zhang, Youqian Zhang, Qingqing Ye, Yingnan Zhao, Ruochen Du, Haibo Hu,
- Abstract要約: 大規模視覚言語モデル (LVLM) は、マルチモーダルタスクで顕著な成功を収めた。
視覚的な入力への依存は、大きな敵の脅威に晒される。
既存のエンコーダベースの攻撃は、LVLM全体ではなく、視覚エンコーダのみに最適化することで、入力画像を摂動させる。
本研究は,LVLMにおけるエンコーダを用いた対向転送性に関する最初の体系的研究である。
- 参考スコア(独自算出の注目度): 19.899086203883254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) have achieved impressive success across multimodal tasks, but their reliance on visual inputs exposes them to significant adversarial threats. Existing encoder-based attacks perturb the input image by optimizing solely on the vision encoder, rather than the entire LVLM, offering a computationally efficient alternative to end-to-end optimization. However, their transferability across different LVLM architectures in realistic black-box scenarios remains poorly understood. To address this gap, we present the first systematic study towards encoder-based adversarial transferability in LVLMs. Our contributions are threefold. First, through large-scale benchmarking over eight diverse LVLMs, we reveal that existing attacks exhibit severely limited transferability. Second, we perform in-depth analysis, disclosing two root causes that hinder the transferability: (1) inconsistent visual grounding across models, where different models focus their attention on distinct regions; (2) redundant semantic alignment within models, where a single object is dispersed across multiple overlapping token representations. Third, we propose Semantic-Guided Multimodal Attack (SGMA), a novel framework to enhance the transferability. Inspired by the discovered causes in our analysis, SGMA directs perturbations toward semantically critical regions and disrupts cross-modal grounding at both global and local levels. Extensive experiments across different victim models and tasks show that SGMA achieves higher transferability than existing attacks. These results expose critical security risks in LVLM deployment and underscore the urgent need for robust multimodal defenses.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、マルチモーダルタスク全体にわたって顕著な成功を収めてきたが、視覚入力への依存は、大きな敵の脅威にさらされている。
既存のエンコーダベースの攻撃は、LVLM全体ではなくビジョンエンコーダのみに最適化することで、入力画像を摂動させ、エンドツーエンドの最適化に代わる計算効率の良い代替手段を提供する。
しかし、現実的なブラックボックスシナリオにおける異なるLVLMアーキテクチャ間の転送性は、まだよく理解されていない。
このギャップに対処するため,LVLMにおけるエンコーダを用いた対向転送性に関する最初の体系的研究を行った。
私たちの貢献は3倍です。
まず,8種類のLVLMを大規模にベンチマークすることで,既存の攻撃は極めて限定的な伝達性を示すことが明らかとなった。
第二に、トランスファービリティを妨げる2つの根本原因を明らかにする。(1)異なるモデルが異なる領域に注意を向けるモデル間の一貫性のない視覚的接地、(2)複数の重複するトークン表現にまたがる1つのオブジェクトが分散しているモデル内の冗長なセマンティックアライメント。
第3に,セマンティックガイド型マルチモーダルアタック(SGMA)を提案する。
分析の結果,SGMAは意味的に重要な領域への摂動を誘導し,世界レベルと地域レベルでの相互的接地を阻害する。
様々な犠牲者モデルとタスクにわたる大規模な実験は、SGMAが既存の攻撃よりも高い伝達性を達成することを示している。
これらの結果は、LVLM配備における重大なセキュリティリスクを明らかにし、堅牢なマルチモーダル防衛の必要性を浮き彫りにしている。
関連論文リスト
- When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - Universal Camouflage Attack on Vision-Language Models for Autonomous Driving [67.34987318443761]
自動運転のためのビジュアル言語モデリングが、有望な研究方向として浮上している。
VLM-ADは、敵の攻撃による深刻なセキュリティ脅威に弱いままである。
VLM-ADのための最初のユニバーサルカモフラージュ攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:52:01Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Doubly-Universal Adversarial Perturbations: Deceiving Vision-Language Models Across Both Images and Text with a Single Perturbation [15.883062174902093]
VLM(Large Vision-Language Models)は、視覚エンコーダとLLM(Large Language Model)を統合することで、マルチモーダルタスクにまたがる顕著な性能を示す。
VLMに特化して設計された新しいUAPについて紹介する:Douubly-Universal Adversarial Perturbation (Douubly-UAP)
論文 参考訳(メタデータ) (2024-12-11T05:23:34Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。