論文の概要: Trap and Replace: Defending Backdoor Attacks by Trapping Them into an
Easy-to-Replace Subnetwork
- arxiv url: http://arxiv.org/abs/2210.06428v1
- Date: Wed, 12 Oct 2022 17:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 13:54:44.762500
- Title: Trap and Replace: Defending Backdoor Attacks by Trapping Them into an
Easy-to-Replace Subnetwork
- Title(参考訳): trap and replace: 簡単にリプレースできるサブネットワークにトラップしてバックドア攻撃を防御する
- Authors: Haotao Wang, Junyuan Hong, Aston Zhang, Jiayu Zhou, Zhangyang Wang
- Abstract要約: ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
本研究は,バックドアの有害な影響を除去しやすくする,新たなバックドア防衛戦略を提案する。
我々は10種類のバックドア攻撃に対して本手法を評価した。
- 参考スコア(独自算出の注目度): 105.0735256031911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) are vulnerable to backdoor attacks. Previous
works have shown it extremely challenging to unlearn the undesired backdoor
behavior from the network, since the entire network can be affected by the
backdoor samples. In this paper, we propose a brand-new backdoor defense
strategy, which makes it much easier to remove the harmful influence of
backdoor samples from the model. Our defense strategy, \emph{Trap and Replace},
consists of two stages. In the first stage, we bait and trap the backdoors in a
small and easy-to-replace subnetwork. Specifically, we add an auxiliary image
reconstruction head on top of the stem network shared with a light-weighted
classification head. The intuition is that the auxiliary image reconstruction
task encourages the stem network to keep sufficient low-level visual features
that are hard to learn but semantically correct, instead of overfitting to the
easy-to-learn but semantically incorrect backdoor correlations. As a result,
when trained on backdoored datasets, the backdoors are easily baited towards
the unprotected classification head, since it is much more vulnerable than the
shared stem, leaving the stem network hardly poisoned. In the second stage, we
replace the poisoned light-weighted classification head with an untainted one,
by re-training it from scratch only on a small holdout dataset with clean
samples, while fixing the stem network. As a result, both the stem and the
classification head in the final network are hardly affected by backdoor
training samples. We evaluate our method against ten different backdoor
attacks. Our method outperforms previous state-of-the-art methods by up to
$20.57\%$, $9.80\%$, and $13.72\%$ attack success rate and on-average $3.14\%$,
$1.80\%$, and $1.21\%$ clean classification accuracy on CIFAR10, GTSRB, and
ImageNet-12, respectively. Code is available online.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
これまでの研究では、ネットワーク全体がバックドアのサンプルの影響を受けやすいため、望ましくないバックドアの動作をネットワークから解放することは極めて困難であった。
本稿では,新たなバックドア防衛戦略を提案し,モデルからバックドアサンプルの有害な影響を除去することを容易にする。
我々の防衛戦略である \emph{trap and replace} は2段階からなる。
最初の段階では、バックドアを小さくて簡単に交換できるサブネットワークで焼いてトラップします。
具体的には,主幹ネットワーク上に,重み付き分類ヘッドで共有された補助画像再構成ヘッドを付加する。
直感的には、補助的な画像再構成タスクは、学習が難しいが意味的に正しい十分な低レベルの視覚的特徴をstemネットワークに保持することを奨励している。
その結果、バックドア付きデータセットでトレーニングされた場合、共有stemよりも脆弱であるため、バックドアは保護されていない分類ヘッドに簡単に投入され、stemネットワークはほとんど毒を飲まない。
第2段階では, 幹細胞ネットワークを固定しながら, 小さなホールトアウトデータセットでのみスクラッチから再学習することで, 有毒な軽度分類ヘッドを固定されていないものに置き換える。
その結果、最終ネットワークのstemと分類ヘッドの両方がバックドアトレーニングサンプルの影響をほとんど受けない。
10種類のバックドア攻撃に対して本手法の評価を行った。
本手法は,cifar10,gtsrb,imagenet-12において,従来手法よりも最大20.57\%$,9.80\%$,13.72\%$$攻撃成功率,平均3.14\%$,1.80\%$,1.21\%$クリーン分類精度をそれぞれ上回る。
コードはオンラインで入手できる。
関連論文リスト
- Flatness-aware Sequential Learning Generates Resilient Backdoors [7.969181278996343]
近年、バックドア攻撃は機械学習モデルのセキュリティに対する新たな脅威となっている。
本稿では,連続学習(CL)技術を活用して,バックドアのCFに対処する。
レジリエントなバックドアを生成可能な,SBL(Sequential Backdoor Learning)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-20T03:30:05Z) - Beating Backdoor Attack at Its Own Game [10.131734154410763]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
既存の防御方法は、攻撃の成功率を大幅に低下させた。
有害な試料を標的とした非敵のバックドアを注入する高効率な枠組みを提案する。
論文 参考訳(メタデータ) (2023-07-28T13:07:42Z) - Single Image Backdoor Inversion via Robust Smoothed Classifiers [76.66635991456336]
隠れたバックドアを1枚の画像で復元できるバックドア・インバージョンのための新しいアプローチを提案する。
本研究では,1枚の画像で隠れたバックドアを復元できる,バックドア・インバージョンのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-01T03:37:42Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Handcrafted Backdoors in Deep Neural Networks [33.21980707457639]
トレーニング済みモデルのパラメータを直接操作してバックドアを注入する手工芸攻撃を導入する。
バックドアは4つのデータセットと4つのネットワークアーキテクチャで有効であり、成功率は96%を超えています。
以上の結果から,サプライチェーンバックドア攻撃の完全な空間を理解するためには,さらなる研究が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-06-08T20:58:23Z) - Reverse Engineering Imperceptible Backdoor Attacks on Deep Neural
Networks for Detection and Training Set Cleansing [22.22337220509128]
バックドアデータ中毒は、ディープニューラルネットワークイメージ分類器に対する敵攻撃の新たな形態である。
本稿では,非受容的なバックドアパターンを用いたバックドア攻撃の防御において,ブレークスルーを行う。
1)トレーニングセットが毒であるかどうかを検知し,2)ターゲットクラスとトレーニングイメージをバックドアパターンを埋め込んだ状態で識別し,3)攻撃者が使用するバックドアパターンの推定をリバースエンジニアリングする。
論文 参考訳(メタデータ) (2020-10-15T03:12:24Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z) - Clean-Label Backdoor Attacks on Video Recognition Models [87.46539956587908]
画像バックドア攻撃は、ビデオでははるかに効果が低いことを示す。
本稿では,映像認識モデルに対するバックドアトリガとして,ユニバーサル・ディバイサル・トリガーを提案する。
提案したバックドア攻撃は,最先端のバックドア防御・検出手法に耐性がある。
論文 参考訳(メタデータ) (2020-03-06T04:51:48Z) - Defending against Backdoor Attack on Deep Neural Networks [98.45955746226106]
トレーニングデータの一部にバックドアトリガーを注入する、いわゆるテキストバックドア攻撃について検討する。
実験の結果,本手法は攻撃成功率を効果的に低減し,クリーン画像の分類精度も高いことがわかった。
論文 参考訳(メタデータ) (2020-02-26T02:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。