論文の概要: Seeing No Evil: Blinding Large Vision-Language Models to Safety Instructions via Adversarial Attention Hijacking
- arxiv url: http://arxiv.org/abs/2604.10299v1
- Date: Sat, 11 Apr 2026 17:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.944013
- Title: Seeing No Evil: Blinding Large Vision-Language Models to Safety Instructions via Adversarial Attention Hijacking
- Title(参考訳): 悪を見ない: 敵の注意をハイジャックすることで、大きな視界ランゲージモデルから安全指導へ
- Authors: Jingru Li, Wei Ren, Tianqing Zhu,
- Abstract要約: 安全アライメント攻撃を回避するために,注意誘導型視覚ジェイルブレイクを提案する。
提案手法はQwen-VLに対して94.4%の攻撃成功率を達成し,40%の繰り返しを削減した。
メカニスティック分析では、安全失明と呼ばれる障害モードが明らかにされている。
- 参考スコア(独自算出の注目度): 16.208634186675397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) rely on attention-based retrieval of safety instructions to maintain alignment during generation. Existing attacks typically optimize image perturbations to maximize harmful output likelihood, but suffer from slow convergence due to gradient conflict between adversarial objectives and the model's safety-retrieval mechanism. We propose Attention-Guided Visual Jailbreaking, which circumvents rather than overpowers safety alignment by directly manipulating attention patterns. Our method introduces two simple auxiliary objectives: (1) suppressing attention to alignment-relevant prefix tokens and (2) anchoring generation on adversarial image features. This simple yet effective push-pull formulation reduces gradient conflict by 45% and achieves 94.4% attack success rate on Qwen-VL (vs. 68.8% baseline) with 40% fewer iterations. At tighter perturbation budgets ($ε=8/255$), we maintain 59.0% ASR compared to 45.7% for standard methods. Mechanistic analysis reveals a failure mode we term safety blindness: successful attacks suppress system-prompt attention by 80%, causing models to generate harmful content not by overriding safety rules, but by failing to retrieve them.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、世代間のアライメントを維持するために、注意に基づく安全指示の検索に依存する。
既存の攻撃は、画像の摂動を最適化し、有害な出力確率を最大化するが、敵の目標とモデルの安全性を回復するメカニズムの間の勾配の衝突による緩やかな収束に苦しむ。
本研究では,注意パターンを直接操作することで,安全アライメントの過大化を回避し,注意誘導型視覚ジェイルブレーカーを提案する。
提案手法では,(1)アライメント関連接頭辞への注意を抑えることと,(2)敵対画像の特徴に対するアンカー生成という2つの単純な補助的目的を導入する。
この単純で効果的なプッシュプルの定式化は、勾配の衝突を45%減らし、Qwen-VL(vs.68.8%ベースライン)の攻撃成功率94.4%を40%減らした。
より厳しい摂動予算(ε=8/255$)では、標準手法の45.7%に比べて59.0%のASRを維持している。
攻撃の成功は、安全規則を覆すのではなく、それらを回収できないことによって、モデルが有害なコンテンツを生成させる。
関連論文リスト
- AI Evasion and Impersonation Attacks on Facial Re-Identification with Activation Map Explanations [13.564481603680838]
本稿では,回避攻撃と偽装攻撃の両方が可能な敵パッチを生成するための新しい枠組みを提案する。
我々は,条件付きエンコーダ・デコーダネットワークを用いて,ソース画像とターゲット画像からのマルチスケール特徴を導出して,逆パッチを1つのフォワードパスで合成する。
我々のフレームワークはCelebA-HQで27%の成功率を獲得し、他のパッチベースの手法と競合する。
論文 参考訳(メタデータ) (2026-03-16T15:12:41Z) - Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away [97.11976870616273]
本稿では,安全回復を目的ではなく満足度の高い制約として扱う軽量な推論時防衛法を提案する。
6つのオープンソースMLRMと4つのjailbreakベンチマークで評価した結果、SafeThinkは攻撃成功率を30~60%削減しました。
論文 参考訳(メタデータ) (2026-02-11T18:09:17Z) - Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models [54.61181161508336]
MFA(Multi-Faceted Attack)は、防衛装備型ビジョンランゲージモデル(VLM)の一般的な安全性上の脆弱性を明らかにするフレームワークである。
MFAの中核となるコンポーネントはアテンション・トランスファー・アタック(ATA)であり、競合する目的を持ったメタタスク内に有害な命令を隠す。
MFAは58.5%の成功率を獲得し、既存の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-20T07:12:54Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - From Evaluation to Defense: Advancing Safety in Video Large Language Models [33.10355085086974]
textbfVideoSafetyBench (VSB-77k)は,ビデオLLMの安全性に関する大規模かつ文化的に多様なベンチマークである。
ビデオモダリティの統合は安全性を平均42.3%低下させ、マルチモーダル攻撃のシステム的リスクを露呈する。
我々は,2つのイノベーションを通じて,前例のない安全性向上を実現する2段階フレームワークである textbfVideoSafety-R1 を提案する。
論文 参考訳(メタデータ) (2025-05-22T13:16:53Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。