論文の概要: Adversarial Feature Map Pruning for Backdoor
- arxiv url: http://arxiv.org/abs/2307.11565v2
- Date: Fri, 23 Feb 2024 12:42:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 18:19:02.857385
- Title: Adversarial Feature Map Pruning for Backdoor
- Title(参考訳): バックドアの対向的特徴マッププルーニング
- Authors: Dong Huang, Qingwen Bu
- Abstract要約: 本稿では,バックドア攻撃を軽減するために,FMP (Adversarial Feature Map Pruning for Backdoor)を提案する。
FMPは、入力からバックドア情報を抽出するように訓練されたバックドア特徴マップのプルークを試みる。
我々の実験は、既存の防衛戦略と比較して、FMPは最も複雑で目に見えない攻撃トリガーに対しても、攻撃成功率(ASR)を効果的に低減できることを示した。
- 参考スコア(独自算出の注目度): 4.550555443103878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have been widely used in many critical applications,
such as autonomous vehicles and medical diagnosis. However, their security is
threatened by backdoor attacks, which are achieved by adding artificial
patterns to specific training data. Existing defense strategies primarily focus
on using reverse engineering to reproduce the backdoor trigger generated by
attackers and subsequently repair the DNN model by adding the trigger into
inputs and fine-tuning the model with ground-truth labels. However, once the
trigger generated by the attackers is complex and invisible, the defender
cannot reproduce the trigger successfully then the DNN model will not be
repaired, as the trigger is not effectively removed.
In this work, we propose Adversarial Feature Map Pruning for Backdoor (FMP)
to mitigate backdoor from the DNN. Unlike existing defense strategies, which
focus on reproducing backdoor triggers, FMP attempts to prune backdoor feature
maps, which are trained to extract backdoor information from inputs. After
pruning these backdoor feature maps, FMP will fine-tune the model with a secure
subset of training data. Our experiments demonstrate that, compared to existing
defense strategies, FMP can effectively reduce the Attack Success Rate (ASR)
even against the most complex and invisible attack triggers (e.g., FMP
decreases the ASR to 2.86\% in CIFAR10, which is 19.2\% to 65.41\% lower than
baselines). Second, unlike conventional defense methods that tend to exhibit
low robust accuracy (that is, the accuracy of the model on poisoned data), FMP
achieves a higher RA, indicating its superiority in maintaining model
performance while mitigating the effects of backdoor attacks (e.g., FMP obtains
87.40\% RA in CIFAR10). Our code is publicly available at:
https://github.com/retsuh-bqw/FMP.
- Abstract(参考訳): 深層ニューラルネットワークは、自動運転車や医療診断など、多くの重要な用途で広く使われている。
しかし、それらのセキュリティは特定のトレーニングデータに人工パターンを追加することで達成されるバックドア攻撃によって脅かされている。
既存の防衛戦略は、主にリバースエンジニアリングを使用して攻撃者が生成したバックドアトリガを再現し、その後、インプットにトリガーを追加してモデルをグランドトラストラベルで微調整することでDNNモデルを修復する。
しかし、攻撃者が生成したトリガーが複雑で目に見えない場合、ディフェンダーはトリガーを正常に再現できないため、トリガーが効果的に除去されないため、dnnモデルは修復されない。
本稿では,DNN からバックドアを緩和する Backdoor (FMP) のための Adversarial Feature Map Pruning を提案する。
バックドアのトリガーを再現する既存の防衛戦略とは異なり、FMPはバックドアの特徴マップを作成し、入力からバックドア情報を抽出する訓練を行っている。
これらのバックドア機能マップを解析した後、FMPはトレーニングデータの安全なサブセットでモデルを微調整する。
我々の実験は、既存の防衛戦略と比較して、FMPは最も複雑で目に見えない攻撃トリガーに対しても攻撃成功率(ASR)を効果的に減少させることができることを示した(例えば、FMPはベースラインよりも19.2\%から65.41\%低いCIFAR10においてASRを2.86\%に減少させる)。
第2に、低ロバストな精度(すなわち有毒データに対するモデルの精度)を示す従来の防御方法とは異なり、FMPは高いRAを達成し、バックドアアタックの効果を軽減しつつ、モデル性能を維持する上で優位性を示す(例えば、FMPはCIFAR10において87.40\%のRAを得る)。
私たちのコードは、https://github.com/retsuh-bqw/FMPで公開されています。
関連論文リスト
- Elijah: Eliminating Backdoors Injected in Diffusion Models via
Distribution Shift [86.92048184556936]
DMの最初のバックドア検出・除去フレームワークを提案する。
DDPM, NCSN, LDMを含む3種類のDMを用いて, フレームワークのElijahを評価した。
提案手法では, モデルの有用性を著しく損なうことなく, 検出精度が100%に近づき, バックドア効果をゼロに抑えることができる。
論文 参考訳(メタデータ) (2023-11-27T23:58:56Z) - Reconstructive Neuron Pruning for Backdoor Defense [96.21882565556072]
本稿では, バックドアニューロンの露出とプルーンの抑制を目的とした, emphReconstructive Neuron Pruning (RNP) という新しい防御法を提案する。
RNPでは、アンラーニングはニューロンレベルで行われ、リカバリはフィルタレベルで行われ、非対称再構成学習手順を形成する。
このような非対称なプロセスは、少数のクリーンサンプルだけが、広範囲の攻撃によって移植されたバックドアニューロンを効果的に露出し、刺激することができることを示す。
論文 参考訳(メタデータ) (2023-05-24T08:29:30Z) - Backdoor Attack with Sparse and Invisible Trigger [60.84183404621145]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - BATT: Backdoor Attack with Transformation-based Triggers [72.61840273364311]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアの敵は、敵が特定したトリガーパターンによって活性化される隠れたバックドアを注入する。
最近の研究によると、既存の攻撃のほとんどは現実世界で失敗した。
論文 参考訳(メタデータ) (2022-11-02T16:03:43Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Model-Contrastive Learning for Backdoor Defense [13.781375023320981]
モデル・コントラスト学習に基づく新しいバックドア・ディフェンス手法 MCL を提案する。
MCLは、良質なデータの高い精度を維持しながら、バックドアの脅威を減らすのに効果的である。
論文 参考訳(メタデータ) (2022-05-09T16:36:46Z) - Imperceptible Backdoor Attack: From Input Space to Feature
Representation [24.82632240825927]
バックドア攻撃はディープニューラルネットワーク(DNN)への脅威が急速に高まっている
本稿では,既存の攻撃手法の欠点を分析し,新たな非受容的バックドア攻撃を提案する。
我々のトリガーは、良性画像の1%以下のピクセルしか変更せず、大きさは1。
論文 参考訳(メタデータ) (2022-05-06T13:02:26Z) - Adversarial Fine-tuning for Backdoor Defense: Connect Adversarial
Examples to Triggered Samples [15.57457705138278]
本稿では,バックドアトリガを除去する新たなAFT手法を提案する。
AFTは、クリーンサンプルの性能劣化を明白にすることなく、バックドアトリガを効果的に消去することができる。
論文 参考訳(メタデータ) (2022-02-13T13:41:15Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。