論文の概要: Test-Time Attention Purification for Backdoored Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2603.12989v1
- Date: Fri, 13 Mar 2026 13:45:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.101014
- Title: Test-Time Attention Purification for Backdoored Large Vision Language Models
- Title(参考訳): バックドア型大規模視覚言語モデルに対するテスト時間アテンションの浄化
- Authors: Zhifang Zhang, Bojun Yang, Shuo He, Weitong Chen, Wei Emma Zhang, Olaf Maennel, Lei Feng, Miao Xu,
- Abstract要約: 大規模視覚言語モデル(LVLM)におけるバックドア行動の新しい力学的理解を提供する。
テスト時に純粋に動作するトレーニングフリーのプラグアンドプレイディフェンスであるCleanSightを提案する。
CleanSightは、さまざまなデータセットとバックドアアタックタイプで、既存のピクセルベースの浄化防御を著しく上回る。
- 参考スコア(独自算出の注目度): 23.890959327899925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the strong multimodal performance, large vision-language models (LVLMs) are vulnerable during fine-tuning to backdoor attacks, where adversaries insert trigger-embedded samples into the training data to implant behaviors that can be maliciously activated at test time. Existing defenses typically rely on retraining backdoored parameters (e.g., adapters or LoRA modules) with clean data, which is computationally expensive and often degrades model performance. In this work, we provide a new mechanistic understanding of backdoor behaviors in LVLMs: the trigger does not influence prediction through low-level visual patterns, but through abnormal cross-modal attention redistribution, where trigger-bearing visual tokens steal attention away from the textual context - a phenomenon we term attention stealing. Motivated by this, we propose CleanSight, a training-free, plug-and-play defense that operates purely at test time. CleanSight (i) detects poisoned inputs based on the relative visual-text attention ratio in selected cross-modal fusion layers, and (ii) purifies the input by selectively pruning the suspicious high-attention visual tokens to neutralize the backdoor activation. Extensive experiments show that CleanSight significantly outperforms existing pixel-based purification defenses across diverse datasets and backdoor attack types, while preserving the model's utility on both clean and poisoned samples.
- Abstract(参考訳): 強力なマルチモーダル性能にもかかわらず、大規模な視覚言語モデル(LVLM)は、バックドア攻撃への微調整において脆弱である。
既存のディフェンスは通常、クリーンなデータでバックドアパラメータ(例えばアダプタやLoRAモジュール)を再トレーニングすることに頼っている。
本研究は,LVLMのバックドア行動に対する新たな機械的理解を提供する: トリガーは低レベルな視覚パターンによる予測に影響を与えるのではなく,異常なモーダルな注意再分配を通じて,トリガーを付加する視覚トークンがテキストの文脈から注意を盗む現象である。
そこで我々は,テスト時に純粋に動作するトレーニングフリーのプラグアンドプレイディフェンスであるCleanSightを提案する。
clean + -sight
(i)選択した異種融合層における相対的な視覚的テキストの注意率に基づいて有毒な入力を検出し、
2)不審な視覚トークンを選択的にプルーニングすることで入力を浄化し、バックドアのアクティベーションを中和する。
大規模な実験により、CleanSightはさまざまなデータセットやバックドア攻撃タイプで既存のピクセルベースの浄化防御を著しく上回り、クリーンなサンプルと有毒なサンプルの両方でモデルの有用性を保っている。
関連論文リスト
- Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models [74.1970982768771]
確立されたデータポゾンパイプラインは,MDLMにバックドアを埋め込むことに成功した。
拡散自己浄化(Diffusion Self-Purification)と呼ばれるMDLMのバックドア防御フレームワークについて紹介する。
論文 参考訳(メタデータ) (2026-02-24T15:47:52Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - Proactive Adversarial Defense: Harnessing Prompt Tuning in Vision-Language Models to Detect Unseen Backdoored Images [0.0]
バックドア攻撃は、隠れたトリガーを入力に埋め込むことで重大な脅威となり、モデルがそれらをターゲットラベルに誤って分類する。
トレーニングと推論の両方において、未確認のバックドア画像を検出するための画期的な手法を提案する。
われわれのアプローチは、学習可能なテキストプロンプトを訓練し、クリーンな画像と隠れたバックドアトリガーを区別する。
論文 参考訳(メタデータ) (2024-12-11T19:54:14Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。