論文の概要: Fast and Lightweight Backdoor Detection via Head Random Probing
- arxiv url: http://arxiv.org/abs/2605.18908v1
- Date: Sun, 17 May 2026 16:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.868971
- Title: Fast and Lightweight Backdoor Detection via Head Random Probing
- Title(参考訳): 頭部ランダム探査による高速軽量バックドア検出
- Authors: Yinbo Yu, Xueyu Yin, Jing Fang, Chunwei Tian, Qi Zhu, Jiajia Liu, Daoqiang Zhang,
- Abstract要約: HTellは、ヘッドランダムなプローブに基づく高速で軽量なデータフリーバックドア検出器である。
6,000以上のバックドアモデルと700以上のクリーンモデルを含む大規模ベンチマークでHTellを評価する。
HTellは99.03%の真正率、2.11%の偽正率と12.69ミリ秒/モデル検出遅延を達成している。
- 参考スコア(独自算出の注目度): 36.321349567971545
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Deep neural networks (DNNs) remain critically vulnerable to backdoor attacks. Existing post-training detectors often require clean or surrogate data, gradients, or iterative trigger reconstruction, leading to high computational costs and limited robustness under practical model-auditing scenarios. In this paper, we propose HTell, a fast and lightweight data-free backdoor detector based on head random probing. Instead of reconstructing diverse trigger patterns, HTell inspects their unified manifestation in the prediction head: backdoored models tend to exhibit abnormal response concentration on the target class under random latent probes. HTell generates architecture-aware random latent probes, feeds them directly into the model head, and detects backdoors by analyzing class-wise response statistics, without accessing real or surrogate data, model gradients, or parameter optimization. We evaluate HTell on a large-scale benchmark containing more than 6,000 backdoored models and over 700 clean models, covering 4 datasets, 14 architectures, and 21 types of backdoor attacks. HTell achieves 99.03% true positive rate and 2.11% false positive rate with only 12.69 ms/model detection latency, reducing the time cost by over 30,000$\times$ compared with representative gradient-based detectors. These results demonstrate that head random probing provides an accurate, robust, and efficient solution for large-scale data-free backdoor model auditing.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して極めて脆弱である。
既存の訓練後検出器は、しばしばクリーンまたはサロゲートデータ、勾配または反復的なトリガー再構成を必要とし、実用的なモデル監査シナリオにおいて高い計算コストと限られた堅牢性をもたらす。
本稿では,頭部ランダム探索に基づく高速かつ軽量なデータフリーバックドア検出器HTellを提案する。
多様なトリガーパターンを再構築する代わりに、HTellは予測ヘッドにおける統一された表現を検査する。
HTellはアーキテクチャを意識したランダム潜伏プローブを生成し、それらをモデルヘッドに直接供給し、リアルまたはサロゲートデータ、モデル勾配、パラメータ最適化にアクセスすることなく、クラスワイズレスポンス統計を分析してバックドアを検出する。
HTellを、6,000以上のバックドアモデルと700以上のクリーンモデルを含む大規模ベンチマークで評価し、4つのデータセット、14のアーキテクチャ、21種類のバックドア攻撃をカバーした。
HTellは99.03%の真正レートと2.11%の偽正レートを達成し、12.69ミリ秒/モデル検出遅延しか持たない。
これらの結果は,大規模データフリーバックドアモデル監査において,頭部ランダムな探索が正確で堅牢で効率的な解であることを示している。
関連論文リスト
- Lightweight and Fast Backdoor Model Detection [36.85393813658947]
DFBScannerは、高速バックドアスキャンのための軽量な静的パラメータ検査フレームワークである。
DFBScannerは真陽性率97.17%、偽陽性率0.95%、平均検出時間は1モデル当たり1ミリ秒である。
論文 参考訳(メタデータ) (2026-05-17T16:02:40Z) - EntropyScan: Towards Model-level Backdoor Detection in LVLMs via Visual Attention Entropy [66.59724477993339]
LVLM(Large Vision-Language Models)は、様々なタスクにまたがる優れた能力を示すが、バックドア攻撃には弱い。
本稿では,LVLMにおけるモデルレベルのバックドア検出のための軽量かつトリガに依存しないEntropyScanを提案する。
私たちのコードはまもなく公開されます。
論文 参考訳(メタデータ) (2026-05-15T08:01:32Z) - Detecting Semantic Backdoors in a Mystery Shopping Scenario [0.0]
分類モデルにおけるセマンティックバックドアの検出問題に対処する。
クリーントレーニングデータセットとモデルのトレーニングレシピが共に知られていることを前提として,参照モデルプールを提案する。
我々はモデル距離を計算するための様々なアプローチを実験的に分析し、また、プロバイダが検出を避けるためにアダプティブアタックを実行するシナリオをテストする。
論文 参考訳(メタデータ) (2026-01-07T11:04:04Z) - Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models [71.44858461725893]
信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。
既存の検出方法は通常、トレーニングデータセット、バックドアトリガー、ターゲットの事前知識に依存する。
このような事前知識を伴わずに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を紹介する。
論文 参考訳(メタデータ) (2025-11-29T06:20:00Z) - Towards Robust Object Detection: Identifying and Removing Backdoors via Module Inconsistency Analysis [5.8634235309501435]
オブジェクト検出モデルに適したバックドアディフェンスフレームワークを提案する。
不整合を定量化し解析することにより、バックドアを検出するアルゴリズムを開発する。
最先端の2段階物体検出器を用いた実験により, バックドア除去率の90%向上が得られた。
論文 参考訳(メタデータ) (2024-09-24T12:58:35Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Detecting Backdoors During the Inference Stage Based on Corruption
Robustness Consistency [33.42013309686333]
本稿では,被害者モデルのハードラベル出力のみを必要とする試験時間トリガーサンプル検出法を提案する。
私たちの旅は、バックドアに感染したモデルが、クリーンな画像に対して異なる画像の破損に対して同様のパフォーマンスを持つのに、トリガーサンプルに対して不一致に実行するという興味深い観察から始まります。
大規模な実験では、最先端のディフェンスと比較すると、TeCoは異なるバックドア攻撃、データセット、モデルアーキテクチャにおいて、それらよりも優れています。
論文 参考訳(メタデータ) (2023-03-27T07:10:37Z) - CrowdGuard: Federated Backdoor Detection in Federated Learning [39.58317527488534]
本稿では,フェデレートラーニングにおけるバックドア攻撃を効果的に軽減する新しい防御機構であるCrowdGuardを提案する。
CrowdGuardでは、サーバロケーションのスタック化されたクラスタリングスキームを使用して、クライアントからのフィードバックに対するレジリエンスを高めている。
評価結果は、CrowdGuardがさまざまなシナリオで100%正の正の正の正の負の負の負の値を達成することを示す。
論文 参考訳(メタデータ) (2022-10-14T11:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。