論文の概要: Lightweight and Fast Backdoor Model Detection
- arxiv url: http://arxiv.org/abs/2605.18907v1
- Date: Sun, 17 May 2026 16:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.867541
- Title: Lightweight and Fast Backdoor Model Detection
- Title(参考訳): 軽量・高速バックドアモデル検出
- Authors: Yinbo Yu, Jing Fang, Xuewen Zhang, Chunwei Tian, Qi Zhu, Daoqiang Zhang, Jiajia Liu,
- Abstract要約: DFBScannerは、高速バックドアスキャンのための軽量な静的パラメータ検査フレームワークである。
DFBScannerは真陽性率97.17%、偽陽性率0.95%、平均検出時間は1モデル当たり1ミリ秒である。
- 参考スコア(独自算出の注目度): 36.85393813658947
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Deep neural networks (DNN), despite their remarkable performance, are highly vulnerable to backdoor attacks. Existing defenses mainly rely on activation anomaly analysis or trigger reverse engineering and often require clean samples or prior knowledge of trigger patterns, resulting in limited efficacy, practicability, and generalizability. More critically, while advanced attacks can implement backdoor implantation in milliseconds, current detection approaches typically demand minutes or even hours. To this end, we propose DFBScanner, a lightweight static parameter inspection framework for fast backdoor scanning. DFBScanner leverages our key observation that backdoor-induced feature perturbations can lead to distinctive and anomalous parameter updates in the final classification layer. Hence, we shift our detection focus from recognizing diverse and attack-specific trigger patterns targeted by prior work, to identifying the unified backdoor manifestation within the final layer, thereby enabling efficient and attack-agnostic detection. Specifically, by constructing and strategically combining multiple anomaly indicators of the final-layer parameters into a Trojan clue, DFBScanner detects backdoors through maximum anomaly scoring. DFBScanner is evaluated on a large-scale backdoor benchmark, including over 5,000 backdoor models trained on 4 datasets, 12 network architectures, 20 types of backdoor triggers, 2 attack strategies (all-to-one and -all), and 3 backdoor injection methods (data poisoning, training pipeline manipulation, and bit-flips). Numerical results show that DFBScanner achieves a 97.17% true-positive rate, 0.95% false-positive rate, and an average detection time of only 1 ms per model, significantly outperforming prior methods.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、優れた性能にもかかわらず、バックドア攻撃に対して非常に脆弱である。
既存の防御は、主にアクティベーション異常の分析やリバースエンジニアリングのトリガーに依存しており、しばしばクリーンなサンプルやトリガーパターンの事前知識を必要とするため、有効性、実践性、一般化性に制限がある。
より重要なことは、高度な攻撃はミリ秒でバックドアの注入を実装できるが、現在の検出アプローチは通常、数分または数時間を要求する。
そこで本研究では,高速バックドアスキャンのための軽量な静的パラメータ検査フレームワークDFBScannerを提案する。
DFBScannerは、バックドアによって引き起こされる特徴摂動が最終分類層における特異かつ異常なパラメータの更新に繋がる可能性があるという我々のキーとなる観察を生かしている。
そこで,本研究では,先行作業が対象とする多様かつ攻撃特異的なトリガパターンの認識から,最終レイヤ内での統一されたバックドア表示の識別に焦点を移し,効率的かつアタックに依存しない検出を可能にした。
具体的には、最終層パラメータの複数の異常指標をトロイア手がかりに戦略的に組み合わせることで、DFBScannerは最大異常スコアによってバックドアを検出する。
DFBScannerは4つのデータセットでトレーニングされた5000以上のバックドアモデル、12のネットワークアーキテクチャ、20種類のバックドアトリガー、2つのアタック戦略(すべてとすべて)、3つのバックドアインジェクションメソッド(データ中毒、パイプライン操作、ビットフリップ)を含む、大規模なバックドアベンチマークで評価されている。
数値計算の結果,DFBScannerは97.17%の真陽性率,0.95%の偽陽性率,1モデル当たり1ミリ秒の平均検出時間を達成し,従来の手法よりも有意に優れていた。
関連論文リスト
- EntropyScan: Towards Model-level Backdoor Detection in LVLMs via Visual Attention Entropy [66.59724477993339]
LVLM(Large Vision-Language Models)は、様々なタスクにまたがる優れた能力を示すが、バックドア攻撃には弱い。
本稿では,LVLMにおけるモデルレベルのバックドア検出のための軽量かつトリガに依存しないEntropyScanを提案する。
私たちのコードはまもなく公開されます。
論文 参考訳(メタデータ) (2026-05-15T08:01:32Z) - Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models [71.44858461725893]
信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。
既存の検出方法は通常、トレーニングデータセット、バックドアトリガー、ターゲットの事前知識に依存する。
このような事前知識を伴わずに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を紹介する。
論文 参考訳(メタデータ) (2025-11-29T06:20:00Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Twin Trigger Generative Networks for Backdoor Attacks against Object Detection [14.578800906364414]
オブジェクト検出器は、現実世界のアプリケーションで広く使われているが、バックドア攻撃に弱い。
バックドア攻撃に関するほとんどの研究は画像分類に焦点を合わせており、物体検出について限定的な研究がなされている。
本研究では,トレーニング中のモデルにバックドアを埋め込むための目に見えないトリガと,推論中の安定したアクティベーションのための目に見えるトリガを生成する新しいツイントリガ生成ネットワークを提案する。
論文 参考訳(メタデータ) (2024-11-23T03:46:45Z) - Backdoor Attack against One-Class Sequential Anomaly Detection Models [10.020488631167204]
そこで我々は,新たなバックドア攻撃戦略を提案することによって,深部連続異常検出モデルを提案する。
攻撃アプローチは2つの主要なステップ、トリガー生成とバックドアインジェクションから構成される。
2つの確立された1クラスの異常検出モデルにバックドアを注入することにより,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-15T19:19:54Z) - FreeEagle: Detecting Complex Neural Trojans in Data-Free Cases [50.065022493142116]
バックドア攻撃とも呼ばれるディープニューラルネットワークに対するトロイの木馬攻撃は、人工知能に対する典型的な脅威である。
FreeEagleは、複雑なバックドア攻撃を効果的に検出できる最初のデータフリーバックドア検出方法である。
論文 参考訳(メタデータ) (2023-02-28T11:31:29Z) - Adaptive Perturbation Generation for Multiple Backdoors Detection [29.01715186371785]
本稿では,複数種類のバックドア攻撃を検出するための適応摂動生成(APG)フレームワークを提案する。
まず,複数種類のバックドアトリガに適合するグローバル・ローカル戦略を設計する。
摂動注入の効率をさらに高めるため,勾配誘導マスク生成戦略を導入する。
論文 参考訳(メタデータ) (2022-09-12T13:37:06Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Exposing Backdoors in Robust Machine Learning Models [0.5672132510411463]
逆向きに堅牢なモデルがバックドア攻撃の影響を受けやすいことを示す。
バックドアはそのようなモデルの 特徴表現に反映されます
この観測は、AEGISと呼ばれる検出技術を用いて、バックドア感染モデルを検出するために利用される。
論文 参考訳(メタデータ) (2020-02-25T04:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。