論文の概要: Backdoor Defense via Suppressing Model Shortcuts
- arxiv url: http://arxiv.org/abs/2211.05631v1
- Date: Wed, 2 Nov 2022 15:39:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 23:19:24.999276
- Title: Backdoor Defense via Suppressing Model Shortcuts
- Title(参考訳): モデルショートカット抑制によるバックドア防御
- Authors: Sheng Yang, Yiming Li, Yong Jiang, Shu-Tao Xia
- Abstract要約: 本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
- 参考スコア(独自算出の注目度): 91.30995749139012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have demonstrated that deep neural networks (DNNs) are
vulnerable to backdoor attacks during the training process. Specifically, the
adversaries intend to embed hidden backdoors in DNNs so that malicious model
predictions can be activated through pre-defined trigger patterns. In this
paper, we explore the backdoor mechanism from the angle of the model structure.
We select the skip connection for discussions, inspired by the understanding
that it helps the learning of model `shortcuts' where backdoor triggers are
usually easier to be learned. Specifically, we demonstrate that the attack
success rate (ASR) decreases significantly when reducing the outputs of some
key skip connections. Based on this observation, we design a simple yet
effective backdoor removal method by suppressing the skip connections in
critical layers selected by our method. We also implement fine-tuning on these
layers to recover high benign accuracy and to further reduce ASR. Extensive
experiments on benchmark datasets verify the effectiveness of our method.
- Abstract(参考訳): 近年の研究では、深層ニューラルネットワーク(DNN)がトレーニングプロセス中にバックドア攻撃に弱いことが示されている。
具体的には、敵はDNNに隠れたバックドアを埋め込むことで、悪意のあるモデル予測を事前に定義されたトリガーパターンを通じてアクティベートできるようにする。
本稿では,モデル構造の角度からバックドア機構について検討する。
バックドアトリガが一般的に習得しやすいモデル‘ショートカット’の学習を支援する,という理解から着想を得た,議論のためのスキップ接続を選択する。
具体的には,いくつかのキースキップ接続の出力を減少させると,攻撃成功率(asr)が著しく低下することを示す。
本研究は,本手法により選択された臨界層におけるスキップ接続を抑えることで,シンプルで効果的なバックドア除去手法を設計する。
また,これらの層に微調整を施し,高い良性回復とASRのさらなる低減を図る。
ベンチマークデータセットに関する広範な実験により,本手法の有効性が検証された。
関連論文リスト
- Uncovering, Explaining, and Mitigating the Superficial Safety of Backdoor Defense [27.471096446155933]
現行のバックドア浄化法における精製後ロバスト性について検討した。
現在の安全浄化法は, バックドア行動の迅速な再学習に弱いことが判明した。
モデル更新を伴うバックドア接続経路の偏差を緩和するチューニングディフェンス,Path-Aware Minimization (PAM)を提案する。
論文 参考訳(メタデータ) (2024-10-13T13:37:36Z) - "No Matter What You Do": Purifying GNN Models via Backdoor Unlearning [33.07926413485209]
GNNのバックドア攻撃は、攻撃者がトリガーを埋め込むことでグラフデータの一部を修正したという事実にある。
GNNにおける最初のバックドア緩和手法であるGCleanerを提案する。
GCleanerは、クリーンデータのわずか1%でバックドア攻撃の成功率を10%に下げることができ、ほぼ無視できるモデル性能の低下がある。
論文 参考訳(メタデータ) (2024-10-02T06:30:49Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Reconstructive Neuron Pruning for Backdoor Defense [96.21882565556072]
本稿では, バックドアニューロンの露出とプルーンの抑制を目的とした, emphReconstructive Neuron Pruning (RNP) という新しい防御法を提案する。
RNPでは、アンラーニングはニューロンレベルで行われ、リカバリはフィルタレベルで行われ、非対称再構成学習手順を形成する。
このような非対称なプロセスは、少数のクリーンサンプルだけが、広範囲の攻撃によって移植されたバックドアニューロンを効果的に露出し、刺激することができることを示す。
論文 参考訳(メタデータ) (2023-05-24T08:29:30Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - Gradient Shaping: Enhancing Backdoor Attack Against Reverse Engineering [39.11590429626592]
勾配に基づくトリガーインバージョンは、最も効果的なバックドア検出手法の1つであると考えられている。
本研究は, 既存の攻撃は, トリガーキャリング入力に伴う変化率の低いバックドアを注入する傾向にあることを示した。
textitGradient Shaping(GRASP)と呼ばれる新たな攻撃強化を設計し、トリガに関するバックドアモデルの変更率を削減する。
論文 参考訳(メタデータ) (2023-01-29T01:17:46Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z) - Defending against Backdoor Attack on Deep Neural Networks [98.45955746226106]
トレーニングデータの一部にバックドアトリガーを注入する、いわゆるテキストバックドア攻撃について検討する。
実験の結果,本手法は攻撃成功率を効果的に低減し,クリーン画像の分類精度も高いことがわかった。
論文 参考訳(メタデータ) (2020-02-26T02:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。