論文の概要: Neural Attention Distillation: Erasing Backdoor Triggers from Deep
Neural Networks
- arxiv url: http://arxiv.org/abs/2101.05930v2
- Date: Wed, 27 Jan 2021 06:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 11:26:51.574322
- Title: Neural Attention Distillation: Erasing Backdoor Triggers from Deep
Neural Networks
- Title(参考訳): 神経注意蒸留:ディープニューラルネットワークからのバックドアトリガーの消去
- Authors: Yige Li, Xixiang Lyu, Nodens Koren, Lingjuan Lyu, Bo Li, Xingjun Ma
- Abstract要約: ディープニューラルネットワーク(DNN)は、バックドア攻撃に弱いことが知られている。
バックドア攻撃は、テスト時にモデルの予測を制御するために、少量のトレーニングデータにトリガーパターンを注入する。
バックドアDNNからバックドアトリガーを消去する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.648453598314795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) are known vulnerable to backdoor attacks, a
training time attack that injects a trigger pattern into a small proportion of
training data so as to control the model's prediction at the test time.
Backdoor attacks are notably dangerous since they do not affect the model's
performance on clean examples, yet can fool the model to make incorrect
prediction whenever the trigger pattern appears during testing. In this paper,
we propose a novel defense framework Neural Attention Distillation (NAD) to
erase backdoor triggers from backdoored DNNs. NAD utilizes a teacher network to
guide the finetuning of the backdoored student network on a small clean subset
of data such that the intermediate-layer attention of the student network
aligns with that of the teacher network. The teacher network can be obtained by
an independent finetuning process on the same clean subset. We empirically
show, against 6 state-of-the-art backdoor attacks, NAD can effectively erase
the backdoor triggers using only 5\% clean training data without causing
obvious performance degradation on clean examples. Code is available in
https://github.com/bboylyg/NAD.
- Abstract(参考訳): 深層ニューラルネットワーク(DNN)は、テスト時にモデルの予測を制御するために、少量のトレーニングデータにトリガーパターンを注入するトレーニングタイムアタックであるバックドアアタックに対して脆弱であることが知られている。
バックドア攻撃は、クリーンな例ではモデルのパフォーマンスに影響を与えないが、テスト中にトリガーパターンが現れると、モデルを騙して誤った予測をすることができるため、特に危険である。
本稿では,バックドアドDNNのバックドアトリガを除去する新しい防衛フレームワークであるニューラルアテンション蒸留(NAD)を提案する。
NADは教師ネットワークを利用して、学生ネットワークの中間層注意が教師ネットワークのそれと一致するように、バックドアの学生ネットワークの微調整を小さなクリーンなデータサブセットでガイドする。
教師ネットワークは、同一のクリーンサブセット上の独立した微調整プロセスにより得ることができる。
6つの最先端のバックドア攻撃に対して、NADはクリーンな例で明らかなパフォーマンス劣化を引き起こすことなく、5倍のクリーンなトレーニングデータでバックドアトリガを効果的に消去できることを示す。
コードはhttps://github.com/bboylyg/NADで入手できる。
関連論文リスト
- Mitigating Backdoors within Deep Neural Networks in Data-limited
Configuration [1.1663475941322277]
バックドアされたディープニューラルネットワークは、テスト時にサンプルにトリガーが注入されたときに悪意を持って振る舞いながら、クリーンなデータに正常な振る舞いを示す。
本稿では, 有毒ニューロンの特性を定式化する。
このバックドア不確実性スコアは、ネットワークニューロンの活性化値、重み、および同一層の他のニューロンとの関係に応じてランク付けすることができる。
論文 参考訳(メタデータ) (2023-11-13T15:54:27Z) - Reconstructive Neuron Pruning for Backdoor Defense [96.21882565556072]
本稿では, バックドアニューロンの露出とプルーンの抑制を目的とした, emphReconstructive Neuron Pruning (RNP) という新しい防御法を提案する。
RNPでは、アンラーニングはニューロンレベルで行われ、リカバリはフィルタレベルで行われ、非対称再構成学習手順を形成する。
このような非対称なプロセスは、少数のクリーンサンプルだけが、広範囲の攻撃によって移植されたバックドアニューロンを効果的に露出し、刺激することができることを示す。
論文 参考訳(メタデータ) (2023-05-24T08:29:30Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - BATT: Backdoor Attack with Transformation-based Triggers [72.61840273364311]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアの敵は、敵が特定したトリガーパターンによって活性化される隠れたバックドアを注入する。
最近の研究によると、既存の攻撃のほとんどは現実世界で失敗した。
論文 参考訳(メタデータ) (2022-11-02T16:03:43Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Adversarial Neuron Pruning Purifies Backdoored Deep Models [24.002034537777526]
アドリアリンプルーニング(英語版) (ANP) は、明らかな性能低下を引き起こすことなく、効果的に注入されたバックドアを除去する。
そこで本研究では, 感応性ニューロンをプルークし, 注入したバックドアを浄化する新しいモデル修復法, ANP (Adrial Neuron Pruning) を提案する。
論文 参考訳(メタデータ) (2021-10-27T13:41:53Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Sleeper Agent: Scalable Hidden Trigger Backdoors for Neural Networks
Trained from Scratch [99.90716010490625]
バックドア攻撃者は、トレーニングデータを改ざんして、そのデータに基づいてトレーニングされたモデルに脆弱性を埋め込む。
この脆弱性は、モデル入力に"トリガー"を配置することで、推論時にアクティベートされる。
我々は,工芸過程において,勾配マッチング,データ選択,ターゲットモデル再トレーニングを利用した新しい隠れトリガ攻撃,Sleeper Agentを開発した。
論文 参考訳(メタデータ) (2021-06-16T17:09:55Z) - Defending against Backdoor Attack on Deep Neural Networks [98.45955746226106]
トレーニングデータの一部にバックドアトリガーを注入する、いわゆるテキストバックドア攻撃について検討する。
実験の結果,本手法は攻撃成功率を効果的に低減し,クリーン画像の分類精度も高いことがわかった。
論文 参考訳(メタデータ) (2020-02-26T02:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。