論文の概要: VEAttack: Downstream-agnostic Vision Encoder Attack against Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2505.17440v1
- Date: Fri, 23 May 2025 03:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.798716
- Title: VEAttack: Downstream-agnostic Vision Encoder Attack against Large Vision Language Models
- Title(参考訳): VEAttack: 大規模な視覚言語モデルに対する下流非依存の視覚エンコーダ攻撃
- Authors: Hefei Mei, Zirui Wang, Shen You, Minjing Dong, Chang Xu,
- Abstract要約: LVLM(Large Vision-Language Models)は、マルチモーダル理解と生成において顕著な能力を示す。
既存の効果的な攻撃は常にタスク固有のホワイトボックス設定に集中する。
我々は,LVLMのビジョンエンコーダのみをターゲットとした,シンプルで効果的なビジョンアタック(VEAttack)を提案する。
- 参考スコア(独自算出の注目度): 33.120141513366136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities in multimodal understanding and generation, yet their vulnerability to adversarial attacks raises significant robustness concerns. While existing effective attacks always focus on task-specific white-box settings, these approaches are limited in the context of LVLMs, which are designed for diverse downstream tasks and require expensive full-model gradient computations. Motivated by the pivotal role and wide adoption of the vision encoder in LVLMs, we propose a simple yet effective Vision Encoder Attack (VEAttack), which targets the vision encoder of LVLMs only. Specifically, we propose to generate adversarial examples by minimizing the cosine similarity between the clean and perturbed visual features, without accessing the following large language models, task information, and labels. It significantly reduces the computational overhead while eliminating the task and label dependence of traditional white-box attacks in LVLMs. To make this simple attack effective, we propose to perturb images by optimizing image tokens instead of the classification token. We provide both empirical and theoretical evidence that VEAttack can easily generalize to various tasks. VEAttack has achieved a performance degradation of 94.5% on image caption task and 75.7% on visual question answering task. We also reveal some key observations to provide insights into LVLM attack/defense: 1) hidden layer variations of LLM, 2) token attention differential, 3) M\"obius band in transfer attack, 4) low sensitivity to attack steps. The code is available at https://github.com/hfmei/VEAttack-LVLM
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、マルチモーダル理解と生成において顕著な能力を示したが、敵の攻撃に対する脆弱性は、重大な堅牢性に関する懸念を引き起こす。
既存の効果的な攻撃は常にタスク固有のホワイトボックス設定に重点を置いているが、これらのアプローチは様々な下流タスク用に設計され、高価なフルモデル勾配計算を必要とするLVLMのコンテキストに限られている。
LVLMにおける視覚エンコーダの役割と広く採用されていることから,LVLMの視覚エンコーダのみをターゲットにした,シンプルで効果的な視覚エンコーダ攻撃(VEAttack)を提案する。
具体的には、以下の大きな言語モデル、タスク情報、ラベルにアクセスすることなく、クリーンな視覚特徴と摂動的な視覚特徴のコサイン類似性を最小化して、敵対的な例を生成することを提案する。
LVLMにおける従来のホワイトボックス攻撃のタスクとラベル依存を排除しつつ、計算オーバーヘッドを大幅に削減する。
この単純な攻撃を効果的にするために,分類トークンの代わりに画像トークンを最適化することで画像を摂動する手法を提案する。
VEAttackが様々なタスクに容易に一般化できるという実証的および理論的証拠を提供する。
VEAttackは画像キャプションタスクで94.5%、視覚的質問応答タスクで75.7%のパフォーマンス低下を達成した。
また、LVLM攻撃・防御に関する洞察を提供するための重要な観察点を明らかにします。
1) LLM の隠蔽層変異
2)トークン注意差分
3)M\"obius band in transfer attack。
4) 攻撃ステップに対する感度が低かった。
コードはhttps://github.com/hfmei/VEAttack-LVLMで公開されている。
関連論文リスト
- Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models [15.029014337718849]
大きな視覚言語モデル(LVLM)は、視覚情報を大きな言語モデルに統合し、目覚ましい多モーダルな会話能力を示す。
一般に、LVLMは視覚エンコーダに頼って画像を視覚トークンに変換するが、これは言語モデルが画像の内容を効果的に知覚するのに不可欠である。
本稿では,VT-Attackと呼ばれる非標的攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T09:06:56Z) - AnyAttack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language Models [39.34959092321762]
VLM(Vision-Language Models)は、画像ベースの敵攻撃に対して脆弱である。
我々は、従来の攻撃の制限を超越した自己教師型フレームワークであるAnyAttackを紹介する。
論文 参考訳(メタデータ) (2024-10-07T09:45:18Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [58.10730906004818]
画像に誤解を招くテキストを追加するタイポグラフィー攻撃は、視覚言語モデル(LVLM)を欺くことができる
実験の結果,これらの攻撃は分類性能を最大60%低下させることがわかった。
論文 参考訳(メタデータ) (2024-02-01T14:41:20Z) - InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。
本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。