論文の概要: When and Where to Attack? Stage-wise Attention-Guided Adversarial Attack on Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2602.04356v1
- Date: Wed, 04 Feb 2026 09:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.455386
- Title: When and Where to Attack? Stage-wise Attention-Guided Adversarial Attack on Large Vision Language Models
- Title(参考訳): 攻撃はいつ、どこで行うか? 段階的注意誘導型大規模視覚言語モデルに対する敵攻撃
- Authors: Jaehyun Kwak, Nam Cao, Boryeong Cho, Segyu Lee, Sumyeong Ahn, Se-Young Yun,
- Abstract要約: LVLM(Large Vision-Language Models)に対するアドリアック攻撃は、現代のマルチモーダルシステムにおける安全性の脆弱性を明らかにするために重要である。
ランダムトリミングのような入力変換に基づく最近の攻撃は、空間的局所的な摂動は、大域的な画像操作よりも効果的であることを示唆している。
注意誘導型フレームワークであるSAGA(Stage-wise AttentionGuided Attack)を提案する。
- 参考スコア(独自算出の注目度): 32.944129149887296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial attacks against Large Vision-Language Models (LVLMs) are crucial for exposing safety vulnerabilities in modern multimodal systems. Recent attacks based on input transformations, such as random cropping, suggest that spatially localized perturbations can be more effective than global image manipulation. However, randomly cropping the entire image is inherently stochastic and fails to use the limited per-pixel perturbation budget efficiently. We make two key observations: (i) regional attention scores are positively correlated with adversarial loss sensitivity, and (ii) attacking high-attention regions induces a structured redistribution of attention toward subsequent salient regions. Based on these findings, we propose Stage-wise Attention-Guided Attack (SAGA), an attention-guided framework that progressively concentrates perturbations on high-attention regions. SAGA enables more efficient use of constrained perturbation budgets, producing highly imperceptible adversarial examples while consistently achieving state-of-the-art attack success rates across ten LVLMs. The source code is available at https://github.com/jackwaky/SAGA.
- Abstract(参考訳): LVLM(Large Vision-Language Models)に対する敵対的攻撃は、現代のマルチモーダルシステムにおける安全性の脆弱性を明らかにするために重要である。
ランダムトリミングのような入力変換に基づく最近の攻撃は、空間的局所的な摂動は、大域的な画像操作よりも効果的であることを示唆している。
しかし、画像全体をランダムにトリミングすることは本質的に確率的であり、ピクセルごとの摂動予算を効率的に使うことができない。
私たちは2つの重要な観察をします。
(i)地域注意スコアは、対向的損失感度と正の相関関係にあり、
(II)高アテンション領域への攻撃は、その後の高アテンション領域に対する注意の再分配の構造的再分配を誘導する。
これらの知見に基づき, 注意誘導型フレームワークであるSAGA(Stage-wise Attention-Guided Attack)を提案する。
SAGAは、制約のある摂動予算をより効率的に利用し、非常に受け入れがたい敵の例を生み出しながら、10のLVLMにおける最先端の攻撃成功率を一貫して達成する。
ソースコードはhttps://github.com/jackwaky/SAGAで入手できる。
関連論文リスト
- Attention-Guided Patch-Wise Sparse Adversarial Attacks on Vision-Language-Action Models [20.36843507452372]
ADVLAは、視覚エンコーダからテキスト機能空間に投影される特徴に対して、敵対的な摂動を適用するフレームワークである。
シングルステップのイテレーションはわずか0.06秒で、従来のパッチベースの攻撃よりも大幅に向上する。
論文 参考訳(メタデータ) (2025-11-26T18:37:54Z) - Steering in the Shadows: Causal Amplification for Activation Space Attacks in Large Language Models [8.92145245069646]
本稿では,デコーダのみの大規模言語モデル(LLM)における中間的アクティベーションが,行動制御のための脆弱な攻撃面を形成することを示す。
我々はこれを、段階的なアクティベーションレベル攻撃であるSensitivity-Scaled Steering (SSS)による攻撃面として活用する。
SSSは,高いコヒーレンスと汎用性を維持しつつ,悪,幻覚,覚醒,情緒に大きな変化をもたらすことを示す。
論文 参考訳(メタデータ) (2025-11-21T12:19:55Z) - Diffusion Guided Adversarial State Perturbations in Reinforcement Learning [33.206020320762576]
強化学習システムは敵の攻撃に弱い。
政策に依存しない拡散型状態摂動攻撃である ShiFT を提案する。
我々の攻撃は、検出を避けるために現実的かつ歴史に整合したまま、真の状態と意味的に異なる状態を生成することができる。
論文 参考訳(メタデータ) (2025-11-10T23:52:21Z) - FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction [82.6826848085638]
視覚的ジェイルブレイク攻撃は、洗練されたテキスト攻撃よりも簡単にオープンソースのMLLMを操作することができる。
これらの攻撃は、非常に限られたクロスモデル転送可能性を示し、クローズドソースMLLMの脆弱性を確実に特定することができない。
本稿では,FORCE(Feature Over-Reliance CorrEction)手法を提案する。
論文 参考訳(メタデータ) (2025-09-25T11:36:56Z) - Adv-Attribute: Inconspicuous and Transferable Adversarial Attack on Face
Recognition [111.1952945740271]
Adv-Attribute (Adv-Attribute) は、顔認証に対する不明瞭で伝達可能な攻撃を生成するように設計されている。
FFHQとCelebA-HQデータセットの実験は、提案されたAdv-Attributeメソッドが最先端の攻撃成功率を達成することを示している。
論文 参考訳(メタデータ) (2022-10-13T09:56:36Z) - Enhancing the Self-Universality for Transferable Targeted Attacks [88.6081640779354]
本手法は,高次対角的摂動が標的攻撃に対してより伝達しやすい傾向にあることを示す。
異なる画像上の摂動を最適化する代わりに、異なる領域を最適化して自己ユニバーシティを実現することで、余分なデータを排除することができる。
特徴的類似性欠如により,本手法は,良性画像よりも対向性摂動の特徴が支配的となる。
論文 参考訳(メタデータ) (2022-09-08T11:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。