論文の概要: EntropyScan: Towards Model-level Backdoor Detection in LVLMs via Visual Attention Entropy
- arxiv url: http://arxiv.org/abs/2605.15711v1
- Date: Fri, 15 May 2026 08:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.214628
- Title: EntropyScan: Towards Model-level Backdoor Detection in LVLMs via Visual Attention Entropy
- Title(参考訳): EntropyScan:ビジュアルアテンション・エントロピーによるLVLMのモデルレベルのバックドア検出に向けて
- Authors: Xuanyu Ge, Zhongqi Wang, Jie Zhang, Shiguang Shan, Xilin Chen,
- Abstract要約: LVLM(Large Vision-Language Models)は、様々なタスクにまたがる優れた能力を示すが、バックドア攻撃には弱い。
本稿では,LVLMにおけるモデルレベルのバックドア検出のための軽量かつトリガに依存しないEntropyScanを提案する。
私たちのコードはまもなく公開されます。
- 参考スコア(独自算出の注目度): 66.59724477993339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities across various tasks, yet they remain vulnerable to backdoor attacks. Existing defense methods predominantly focus on sample-level defense, which relies on the knowledge of training data or triggers. However, identifying whether a given model is backdoored remains a critical but unexplored task. To fill this gap, we propose EntropyScan, a lightweight and trigger-agnostic method for model-level backdoor detection in LVLMs. We first observe that backdoor injection disrupts the cross-modal alignment, resulting in pronounced structural anomalies in visual attention allocation on benign samples. Based on this insight, EntropyScan detects the backdoor models by quantifying such attention deviations. Specifically, it extracts visual attention distributions from the initial layers of the Large Language Model (LLM) and applies Tsallis entropy to capture these structural distortions. By employing a reference-anchored Z-score normalization on a small set of benign samples, it effectively identifies the backdoored model. Extensive experiments across two LVLMs architectures and three advanced attack scenarios show that EntropyScan achieves an F1 score of 98.5% in average and an AUC of 96.6%. Our code will be publicly available soon.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、様々なタスクにまたがる優れた能力を示すが、バックドア攻撃には弱い。
既存の防衛方法は、主に訓練データやトリガーの知識に依存するサンプルレベルの防衛に焦点を当てている。
しかしながら、あるモデルがバックドアされているかどうかを特定することは、クリティカルだが未調査の課題である。
このギャップを埋めるために,LVLMにおけるモデルレベルのバックドア検出のための軽量かつトリガに依存しないEntropyScanを提案する。
まず,バックドアインジェクションがクロスモーダルアライメントを阻害し,良性サンプルに対する視覚的注意配分における構造異常が顕著になるのを観察した。
この知見に基づいて、EntropyScanはそのような注意逸脱を定量化することでバックドアモデルを検出する。
具体的には、Large Language Model (LLM)の初期層から視覚的注意分布を抽出し、Tsallisエントロピーを用いてこれらの構造歪みを捉える。
基準アンコールZスコア正規化を少数の良性サンプルに適用することにより、バックドアモデルを効果的に識別する。
2つのLVLMアーキテクチャと3つの高度な攻撃シナリオにわたる大規模な実験により、EntropyScanはF1スコアが平均98.5%、AUCが96.6%に達した。
私たちのコードはまもなく公開されます。
関連論文リスト
- Scaling Exposes the Trigger: Input-Level Backdoor Detection in Text-to-Image Diffusion Models via Cross-Attention Scaling [12.573852448122716]
テキスト・ツー・イメージ(T2I)拡散モデルは画像合成において顕著な成功を収めているが、大規模データやオープンエコシステムへの依存は深刻なバックドアセキュリティリスクをもたらす。
既存の防御、特に入力レベルメソッドは、より実用的だが、しばしばステルスでセマンティクスを保存するトリガー設計の下で信頼性が低い観測可能な異常に頼っている。
入力レベルのバックドア検出フレームワークであるSETを提案する。これはマルチスケールの摂動下で応答オフセット機能を構築し、小さなクリーンなサンプル集合からコンパクトな良性応答空間を学習する。
論文 参考訳(メタデータ) (2026-04-14T08:31:37Z) - Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models [71.44858461725893]
信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。
既存の検出方法は通常、トレーニングデータセット、バックドアトリガー、ターゲットの事前知識に依存する。
このような事前知識を伴わずに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を紹介する。
論文 参考訳(メタデータ) (2025-11-29T06:20:00Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Dynamic Attention Analysis for Backdoor Detection in Text-to-Image Diffusion Models [70.03122709795122]
従来のバックドア検出手法は主にバックドアサンプルの静的特徴に焦点を当てていた。
本研究では、動的注意分析(DEA)と呼ばれる新しいバックドア検出視点を導入し、これらの動的特徴がバックドア検出の指標となることを示す。
我々の手法は既存の検出方法を大きく上回り、平均F1スコアは79.49%、AUCは87.67%に達した。
論文 参考訳(メタデータ) (2025-04-29T07:59:35Z) - UFID: A Unified Framework for Input-level Backdoor Detection on Diffusion Models [19.46962670935554]
拡散モデルはバックドア攻撃に弱い。
UFIDと呼ばれる拡散モデルに基づくブラックボックス入力レベルのバックドア検出フレームワークを提案する。
本手法は,検出効率と実行時間効率において高い性能を実現する。
論文 参考訳(メタデータ) (2024-04-01T13:21:05Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。