論文の概要: Attention Hijacking: Response Manipulation Across Queries in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.17310v1
- Date: Sun, 17 May 2026 08:02:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.894454
- Title: Attention Hijacking: Response Manipulation Across Queries in Vision-Language Models
- Title(参考訳): アテンションハイジャック:視覚言語モデルにおけるクエリ間の応答操作
- Authors: Zhiqiang Wang, Dongrui Liu, Yan Li, Zonghao Ying, Wei Xue, Wenhan Luo, Yike Guo,
- Abstract要約: 本研究の目的は,画像の持続的支配パターンに対して内的注意を喚起する新たな敵攻撃であるtextbfAttention Hijacking を提案することである。
提案手法は,クエリの特定の単語に対する操作された出力の依存性を低減する。
- 参考スコア(独自算出の注目度): 57.870323273127234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing adversarial attacks on vision-language models (VLMs) can steer model outputs toward attacker-specified target responses, but their effectiveness often degrades when the same perturbed input is paired with different textual queries. This paper studies cross-query response manipulation, where a single adversarial example is expected to remain effective across diverse user queries. We first analyze the limitations of existing attacks and find that successful transfer is closely associated with preserving an image-dominant attention pattern during response generation. Motivated by the observation, we propose \textbf{Attention Hijacking}, a novel adversarial attack that explicitly steers internal attention distributions toward a persistent image-dominant pattern. By amplifying the influence of visual tokens on target response tokens while suppressing the competing influence of textual tokens, our method reduces the dependence of the manipulated output on the specific wording of the query. Extensive experiments on widely used VLMs show that Attention Hijacking substantially improves cross-query transferability across diverse target responses and unseen queries. The method also extends effectively to multiple attack scenarios, offering new insights into the role of attention stability in transferable response manipulation for VLMs.
- Abstract(参考訳): 既存の視覚言語モデル(VLM)に対する敵攻撃は、攻撃者が特定したターゲット応答に対してモデル出力を操るが、その効果は、同じ摂動入力が異なるテキストクエリとペアリングされたときにしばしば低下する。
本稿では,クロスクエリ応答操作について検討し,複数のユーザクエリに対して,単一の逆例が有効であることが期待されている。
まず,既存の攻撃の限界を解析し,応答生成における画像優位な注意パターンの保存と伝達が密接に関連していることを見出した。
本研究の目的は,画像支配パターンに対して内部の注意分布を明示的に制御する新たな攻撃法である「textbf{Attention Hijacking}」を提案することである。
テキストトークンの競合する影響を抑えつつ、ターゲットの応答トークンに対する視覚トークンの影響を増幅することにより、クエリの特定の単語に対する操作された出力の依存性を低減する。
広範に使われているVLMの大規模な実験により、注意的ハイジャックにより、多様なターゲット応答と目に見えないクエリ間のクロスクエリ転送性が大幅に向上することが示された。
また、複数の攻撃シナリオに効果的に拡張し、VLMの転送可能な応答操作における注意安定の役割に関する新たな洞察を提供する。
関連論文リスト
- Test-Time Attention Purification for Backdoored Large Vision Language Models [23.890959327899925]
大規模視覚言語モデル(LVLM)におけるバックドア行動の新しい力学的理解を提供する。
テスト時に純粋に動作するトレーニングフリーのプラグアンドプレイディフェンスであるCleanSightを提案する。
CleanSightは、さまざまなデータセットとバックドアアタックタイプで、既存のピクセルベースの浄化防御を著しく上回る。
論文 参考訳(メタデータ) (2026-03-13T13:45:06Z) - Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction [67.45032003041399]
本研究では,先進的かつ意味論的に誘導された摂動を通じて対向的伝達性を高めるセマンティック・ダイナミック・コントラシブ・アタック(SADCA)を提案する。
SADCAは、対立、正、負のサンプルを含む対照的な学習メカニズムを確立し、得られた摂動の意味的不整合を強化する。
複数のデータセットとモデルの実験により、SADCAは対向移動性を大幅に改善し、最先端の手法を一貫して超えることを示した。
論文 参考訳(メタデータ) (2026-03-05T05:46:16Z) - TokenSwap: Backdoor Attack on the Compositional Understanding of Large Vision-Language Models [57.32952956674526]
大規模視覚言語モデル(LVLM)に対するより回避的でステルス的なバックドア攻撃であるTokenSwapを紹介する。
固定されたターゲットコンテンツを強制するのではなく、TokenSwapはテキスト内のオブジェクト関係の理解を微妙に妨害する。
TokenSwapは、優れた回避性とステルス性を維持しながら、高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-09-29T10:19:22Z) - Revisiting CroPA: A Reproducibility Study and Enhancements for Cross-Prompt Adversarial Transferability in Vision-Language Models [0.0]
VLM(Large Vision-Language Models)はコンピュータビジョンに革命をもたらし、画像分類、キャプション、視覚質問応答などのタスクを可能にする。
特に視覚とテキストの両方のモダリティを操作できるシナリオでは、敵攻撃に対して非常に脆弱なままである。
我々は,「イメージは1000の嘘である:視覚・言語モデルにおける逆転可能性」の総合的研究を行う。
論文 参考訳(メタデータ) (2025-06-28T19:01:41Z) - Misaligned Roles, Misplaced Images: Structural Input Perturbations Expose Multimodal Alignment Blind Spots [6.302734977940601]
本稿では,ユーザとアシスタント間の役割混乱を利用した対人攻撃のクラスであるロール・モダリティ・アタック(RMA)を紹介する。
RMAはクエリ自体を変更することなく入力構造を操作する。
本稿では,入力の急激な摂動に対してモデルを頑健にするための逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2025-04-01T03:54:36Z) - Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。
我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文 参考訳(メタデータ) (2025-03-11T11:52:37Z) - Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks [34.40254709148148]
事前学習された視覚言語モデル(VLM)は、画像および自然言語理解において顕著な性能を示した。
彼らの潜在的な安全性と堅牢性の問題は、敵がシステムを回避し、悪意のある攻撃を通じて有害なコンテンツを生成することを懸念する。
本稿では,マルチモーダルなセマンティック・アップデートに基づいて,敵対的事例の生成を反復的に促進するアタック・チェーン(CoA)を提案する。
論文 参考訳(メタデータ) (2024-11-24T05:28:07Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。