論文の概要: Enhancing Targeted Adversarial Attacks on Large Vision-Language Models via Intermediate Projector
- arxiv url: http://arxiv.org/abs/2508.13739v2
- Date: Wed, 24 Sep 2025 17:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 14:09:11.195431
- Title: Enhancing Targeted Adversarial Attacks on Large Vision-Language Models via Intermediate Projector
- Title(参考訳): 中間プロジェクタによる大規模視線モデルに対する目標対向攻撃の強化
- Authors: Yiming Cao, Yanjie Li, Kaisheng Liang, Bin Xiao,
- Abstract要約: ブラックボックスの敵攻撃は特に大型ビジョンランゲージモデル(VLM)に深刻な脅威をもたらす
本稿では,プロジェクタを利用した新たなブラックボックスターゲットアタックフレームワークを提案する。
具体的には、グローバルな画像埋め込みをきめ細かなクエリ出力に変換する、広く採用されているクエリ変換器(Q-Former)を利用する。
- 参考スコア(独自算出の注目度): 24.390527651215944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing deployment of Large Vision-Language Models (VLMs) raises safety concerns, as adversaries may exploit model vulnerabilities to induce harmful outputs, with targeted black-box adversarial attacks posing a particularly severe threat. However, existing methods primarily maximize encoder-level global similarity, which lacks the granularity for stealthy and practical fine-grained attacks, where only specific target should be altered (e.g., modifying a car while preserving its background). Moreover, they largely neglect the projector, a key semantic bridge in VLMs for multimodal alignment. To address these limitations, we propose a novel black-box targeted attack framework that leverages the projector. Specifically, we utilize the widely adopted Querying Transformer (Q-Former) which transforms global image embeddings into fine-grained query outputs, to enhance attack effectiveness and granularity. For standard global targeted attack scenarios, we propose the Intermediate Projector Guided Attack (IPGA), which aligns Q-Former fine-grained query outputs with the target to enhance attack strength and exploits the intermediate pretrained Q-Former that is not fine-tuned for any specific Large Language Model (LLM) to improve attack transferability. For fine-grained attack scenarios, we augment IPGA with the Residual Query Alignment (RQA) module, which preserves unrelated content by constraining non-target query outputs to enhance attack granularity. Extensive experiments demonstrate that IPGA significantly outperforms baselines in global targeted attacks, and IPGA with RQA (IPGA-R) attains superior success rates and unrelated content preservation over baselines in fine-grained attacks. Our method also transfers effectively to commercial VLMs such as Google Gemini and OpenAI GPT.
- Abstract(参考訳): VLM(Large Vision-Language Models)の展開が増加し、敵はモデル脆弱性を利用して有害な出力を誘導し、標的となるブラックボックスの敵攻撃は特に深刻な脅威となる。
しかし、既存の手法は、主にエンコーダレベルのグローバルな類似性を最大化しており、これはステルス性や実用的なきめ細かな攻撃の粒度に欠けており、特定のターゲットだけを変更すべきである(例えば、背景を保ちながら車を変更する)。
さらに、彼らはマルチモーダルアライメントのためのVLMのキーセマンティックブリッジであるプロジェクターをほとんど無視した。
これらの制約に対処するため,プロジェクタを利用した新たなブラックボックス攻撃フレームワークを提案する。
具体的には,グローバルな画像埋め込みをきめ細かなクエリ出力に変換するクエリ変換器(Q-Former)を用いて,攻撃の有効性と粒度を高める。
標準的なグローバルな攻撃シナリオに対して、攻撃強度を高めるためにQ-Formerの細粒度クエリ出力をターゲットと整列する中間プロジェクタ誘導攻撃(IPGA)を提案し、攻撃伝達性を改善するために特定のLarge Language Model(LLM)では微調整されていない中間的事前学習Q-Formerを利用する。
きめ細かい攻撃シナリオでは、Residual Query Alignment (RQA)モジュールでIPGAを拡張します。
大規模な実験により、IPGAはグローバルな標的攻撃においてベースラインを著しく上回り、RQA(IPGA-R)によるIPGAは、きめ細かい攻撃においてベースラインよりも優れた成功率と無関係なコンテンツ保存を達成することが示された。
提案手法は,Google GeminiやOpenAI GPTなどの商用VLMにも効果的に転送する。
関連論文リスト
- VEAttack: Downstream-agnostic Vision Encoder Attack against Large Vision Language Models [33.120141513366136]
LVLM(Large Vision-Language Models)は、マルチモーダル理解と生成において顕著な能力を示す。
既存の効果的な攻撃は常にタスク固有のホワイトボックス設定に集中する。
我々は,LVLMのビジョンエンコーダのみをターゲットとした,シンプルで効果的なビジョンアタック(VEAttack)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:46:04Z) - Transferable Adversarial Attacks on Black-Box Vision-Language Models [63.22532779621001]
敵対的攻撃は、テキストのみのコンテキストとビジョンのみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行することができる。
攻撃者は、特定の攻撃者による視覚情報の解釈を誘導するために、摂動を作れます。
普遍的な摂動 -- 広い範囲のイメージに適用可能な修正 -- は、これらの誤解釈を一貫して引き起こすことを発見した。
論文 参考訳(メタデータ) (2025-05-02T06:51:11Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models [15.029014337718849]
大きな視覚言語モデル(LVLM)は、視覚情報を大きな言語モデルに統合し、目覚ましい多モーダルな会話能力を示す。
一般に、LVLMは視覚エンコーダに頼って画像を視覚トークンに変換するが、これは言語モデルが画像の内容を効果的に知覚するのに不可欠である。
本稿では,VT-Attackと呼ばれる非標的攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T09:06:56Z) - AnyAttack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language Models [39.34959092321762]
VLM(Vision-Language Models)は、画像ベースの敵攻撃に対して脆弱である。
我々は、従来の攻撃の制限を超越した自己教師型フレームワークであるAnyAttackを紹介する。
論文 参考訳(メタデータ) (2024-10-07T09:45:18Z) - Adversarial Robustness for Visual Grounding of Multimodal Large Language Models [49.71757071535619]
MLLM(Multi-modal Large Language Models)は近年,様々な視覚言語タスクのパフォーマンス向上を実現している。
MLLMでは、視覚的グラウンドリングの対角的堅牢性は未発見のままである。
本稿では,次の3つの攻撃パラダイムを提案する。
論文 参考訳(メタデータ) (2024-05-16T10:54:26Z) - GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。
本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。