論文の概要: BaDExpert: Extracting Backdoor Functionality for Accurate Backdoor Input
Detection
- arxiv url: http://arxiv.org/abs/2308.12439v2
- Date: Thu, 5 Oct 2023 04:08:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 21:41:47.131016
- Title: BaDExpert: Extracting Backdoor Functionality for Accurate Backdoor Input
Detection
- Title(参考訳): BaDExpert: 正確なバックドア入力検出のためのバックドア機能の抽出
- Authors: Tinghao Xie, Xiangyu Qi, Ping He, Yiming Li, Jiachen T. Wang, Prateek
Mittal
- Abstract要約: 我々は,Deep Neural Networks(DNN)に対するバックドア攻撃に対する新しい防御法を提案する。
私たちの防衛は、モデルの生成方法とは独立して機能する開発後防衛のカテゴリに分類されます。
モデル推論におけるバックドア入力をフィルタリングする高精度なバックドア入力検出装置の実現可能性を示す。
- 参考スコア(独自算出の注目度): 42.021282816470794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel defense, against backdoor attacks on Deep Neural Networks
(DNNs), wherein adversaries covertly implant malicious behaviors (backdoors)
into DNNs. Our defense falls within the category of post-development defenses
that operate independently of how the model was generated. The proposed defense
is built upon a novel reverse engineering approach that can directly extract
backdoor functionality of a given backdoored model to a backdoor expert model.
The approach is straightforward -- finetuning the backdoored model over a small
set of intentionally mislabeled clean samples, such that it unlearns the normal
functionality while still preserving the backdoor functionality, and thus
resulting in a model (dubbed a backdoor expert model) that can only recognize
backdoor inputs. Based on the extracted backdoor expert model, we show the
feasibility of devising highly accurate backdoor input detectors that filter
out the backdoor inputs during model inference. Further augmented by an
ensemble strategy with a finetuned auxiliary model, our defense, BaDExpert
(Backdoor Input Detection with Backdoor Expert), effectively mitigates 17 SOTA
backdoor attacks while minimally impacting clean utility. The effectiveness of
BaDExpert has been verified on multiple datasets (CIFAR10, GTSRB and ImageNet)
across various model architectures (ResNet, VGG, MobileNetV2 and Vision
Transformer).
- Abstract(参考訳): 本稿では,ディープニューラルネットワーク(dnn)に対するバックドア攻撃に対して,悪意のある行動(バックドア)をdnnに隠密に埋め込む新たな防御手法を提案する。
当社の防御は、モデルの生成方法とは独立に動作する、開発後防衛のカテゴリに分類される。
提案された防御は、与えられたバックドアモデルのバックドア機能をバックドアエキスパートモデルに直接抽出できる、新しいリバースエンジニアリングアプローチに基づいている。
バックドアの機能を保存しながら、通常の機能を解き放ち、バックドアの入力のみを認識できるモデル(バックドアのエキスパートモデル)になるように、バックドアのモデルを意図的に誤ってラベル付けされたクリーンなサンプルの小さなセットで微調整する。
抽出されたバックドアエキスパートモデルに基づき,モデル推論中にバックドア入力をフィルタする高精度なバックドア入力検出器の実現可能性を示す。
BaDExpert(Backdoor Input Detection with Backdoor Expert)は、17個のSOTAバックドア攻撃を効果的に軽減し、クリーンユーティリティに最小限の影響を与える。
BaDExpertの有効性は、さまざまなモデルアーキテクチャ(ResNet、VGG、MobileNetV2、Vision Transformer)にわたる複数のデータセット(CIFAR10、GTSRB、ImageNet)で検証されている。
関連論文リスト
- Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - Universal Soldier: Using Universal Adversarial Perturbations for
Detecting Backdoor Attacks [15.917794562400449]
ディープラーニングモデルは、バックドアデータによるトレーニングや、内部ネットワークパラメータの変更によって悪用される。
引き金について事前に知ることなく、クリーンモデルとバックドアモデルとを区別することは困難である。
UAPによるバックドア検出(USB)とリバースエンジニアリング潜在的なバックドアトリガのためのUniversal Soldierという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-01T20:47:58Z) - BackdoorBox: A Python Toolbox for Backdoor Learning [67.53987387581222]
このPythonツールボックスは、代表的で高度なバックドア攻撃と防御を実装している。
研究者や開発者は、ベンチマークやローカルデータセットで、さまざまなメソッドを簡単に実装し、比較することができる。
論文 参考訳(メタデータ) (2023-02-01T09:45:42Z) - Neurotoxin: Durable Backdoors in Federated Learning [73.82725064553827]
連合学習システムは バックドア攻撃の訓練中に 固有の脆弱性がある
我々は,既存のバックドア攻撃に対する単純な一直線修正であるニューロトキシンを提案する。
論文 参考訳(メタデータ) (2022-06-12T16:52:52Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Reflection Backdoor: A Natural Backdoor Attack on Deep Neural Networks [46.99548490594115]
バックドア攻撃は、バックドアパターンをトレーニングデータのごく一部に注入することにより、バックドアを被害者モデルにインストールする。
被害者モデルにバックドアとして反射を植え付けるための反射バックドア(Refool)を提案する。
Refoolは最先端のDNNを高い成功率で攻撃することができる。
論文 参考訳(メタデータ) (2020-07-05T13:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。