論文の概要: Enhancing Targeted Adversarial Attacks on Large Vision-Language Models through Intermediate Projector Guidance
- arxiv url: http://arxiv.org/abs/2508.13739v1
- Date: Tue, 19 Aug 2025 11:23:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.899776
- Title: Enhancing Targeted Adversarial Attacks on Large Vision-Language Models through Intermediate Projector Guidance
- Title(参考訳): 中間プロジェクタ誘導による大規模視線モデルに対する目標敵攻撃の強化
- Authors: Yiming Cao, Yanjie Li, Kaisheng Liang, Yuni Lai, Bin Xiao,
- Abstract要約: 現在の敵対者は、エンコーダレベルでターゲットテキストや参照画像とグローバルな類似性を最大化するために、摂動画像を攻撃します。
この制限は粒度を攻撃し、背景を保ちながら車を変更するなどの微粒な操作を妨げる。
本稿では,プロジェクタモジュールの中間段階,特に広く採用されているQ-Formerを用いた攻撃手法であるIPGAを提案する。
本手法は,ブラックボックス環境において,標準的なグローバル画像キャプションタスクときめ細かな視覚的質問応答タスクの両方において,既存の手法よりも一貫して優れる。
- 参考スコア(独自算出の注目度): 9.68652944150964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Targeted adversarial attacks are essential for proactively identifying security flaws in Vision-Language Models before real-world deployment. However, current methods perturb images to maximize global similarity with the target text or reference image at the encoder level, collapsing rich visual semantics into a single global vector. This limits attack granularity, hindering fine-grained manipulations such as modifying a car while preserving its background. Furthermore, these methods largely overlook the projector module, a critical semantic bridge between the visual encoder and the language model in VLMs, thereby failing to disrupt the full vision-language alignment pipeline within VLMs and limiting attack effectiveness. To address these issues, we propose the Intermediate Projector Guided Attack (IPGA), the first method to attack using the intermediate stage of the projector module, specifically the widely adopted Q-Former, which transforms global image embeddings into fine-grained visual features. This enables more precise control over adversarial perturbations by operating on semantically meaningful visual tokens rather than a single global representation. Specifically, IPGA leverages the Q-Former pretrained solely on the first vision-language alignment stage, without LLM fine-tuning, which improves both attack effectiveness and transferability across diverse VLMs. Furthermore, we propose Residual Query Alignment (RQA) to preserve unrelated visual content, thereby yielding more controlled and precise adversarial manipulations. Extensive experiments show that our attack method consistently outperforms existing methods in both standard global image captioning tasks and fine-grained visual question-answering tasks in black-box environment. Additionally, IPGA successfully transfers to multiple commercial VLMs, including Google Gemini and OpenAI GPT.
- Abstract(参考訳): ターゲットの敵攻撃は、現実の展開前にビジョンランゲージモデルのセキュリティ欠陥を積極的に識別するために不可欠である。
しかし、現在の方法では、エンコーダレベルでターゲットテキストや参照画像とグローバルな類似性を最大化し、リッチな視覚的セマンティクスを1つのグローバルベクタに分解する。
この制限は粒度を攻撃し、背景を保ちながら車を変更するなどの微粒な操作を妨げる。
さらに、これらの手法は、視覚エンコーダとVLMの言語モデルの間の重要なセマンティックブリッジであるプロジェクターモジュールを概ね見落としており、それによってVLM内の完全な視覚言語アライメントパイプラインが破壊され、攻撃の有効性が制限される。
これらの問題に対処するために,プロジェクタモジュールの中間段階,特にグローバルな画像埋め込みをきめ細かな視覚的特徴に変換する広く採用されているQ-Formerを用いた攻撃方法として,IPGA(Intermediate Projector Guided Attack)を提案する。
これにより、単一のグローバル表現ではなく、意味的に意味のある視覚的トークンを操作することで、敵の摂動をより正確に制御できる。
具体的には、IPGAは、LLMを微調整することなく、第1の視覚言語アライメントステージのみに事前訓練されたQ-Formerを活用する。
さらに,RQA(Residual Query Alignment)を提案する。
大規模な実験により, ブラックボックス環境下では, 標準的なグローバル画像キャプションタスクときめ細かな視覚質問応答タスクの両方において, 従来手法よりも常に優れていたことが確認された。
さらに、IPGAはGoogle GeminiやOpenAI GPTなど、複数の商用VLMへの転送に成功した。
関連論文リスト
- VEAttack: Downstream-agnostic Vision Encoder Attack against Large Vision Language Models [33.120141513366136]
LVLM(Large Vision-Language Models)は、マルチモーダル理解と生成において顕著な能力を示す。
既存の効果的な攻撃は常にタスク固有のホワイトボックス設定に集中する。
我々は,LVLMのビジョンエンコーダのみをターゲットとした,シンプルで効果的なビジョンアタック(VEAttack)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:46:04Z) - Transferable Adversarial Attacks on Black-Box Vision-Language Models [63.22532779621001]
敵対的攻撃は、テキストのみのコンテキストとビジョンのみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行することができる。
攻撃者は、特定の攻撃者による視覚情報の解釈を誘導するために、摂動を作れます。
普遍的な摂動 -- 広い範囲のイメージに適用可能な修正 -- は、これらの誤解釈を一貫して引き起こすことを発見した。
論文 参考訳(メタデータ) (2025-05-02T06:51:11Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models [15.029014337718849]
大きな視覚言語モデル(LVLM)は、視覚情報を大きな言語モデルに統合し、目覚ましい多モーダルな会話能力を示す。
一般に、LVLMは視覚エンコーダに頼って画像を視覚トークンに変換するが、これは言語モデルが画像の内容を効果的に知覚するのに不可欠である。
本稿では,VT-Attackと呼ばれる非標的攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T09:06:56Z) - AnyAttack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language Models [39.34959092321762]
VLM(Vision-Language Models)は、画像ベースの敵攻撃に対して脆弱である。
我々は、従来の攻撃の制限を超越した自己教師型フレームワークであるAnyAttackを紹介する。
論文 参考訳(メタデータ) (2024-10-07T09:45:18Z) - Adversarial Robustness for Visual Grounding of Multimodal Large Language Models [49.71757071535619]
MLLM(Multi-modal Large Language Models)は近年,様々な視覚言語タスクのパフォーマンス向上を実現している。
MLLMでは、視覚的グラウンドリングの対角的堅牢性は未発見のままである。
本稿では,次の3つの攻撃パラダイムを提案する。
論文 参考訳(メタデータ) (2024-05-16T10:54:26Z) - GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。
本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。