論文の概要: Towards Stable Backdoor Purification through Feature Shift Tuning
- arxiv url: http://arxiv.org/abs/2310.01875v1
- Date: Tue, 3 Oct 2023 08:25:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 16:53:24.713326
- Title: Towards Stable Backdoor Purification through Feature Shift Tuning
- Title(参考訳): 機能シフト調整による安定なバックドア浄化に向けて
- Authors: Rui Min, Zeyu Qin, Li Shen, Minhao Cheng
- Abstract要約: ディープニューラルネットワーク(DNN)がバックドア攻撃に弱いことが広く知られている。
本稿では,最も一般的かつ容易に配置可能なバックドアディフェンスであるファインチューニングから始める。
チューニングに基づくバックドア浄化手法であるFeature Shift Tuning (FST)を紹介する。
- 参考スコア(独自算出の注目度): 22.529990213795216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has been widely observed that deep neural networks (DNN) are vulnerable to
backdoor attacks where attackers could manipulate the model behavior
maliciously by tampering with a small set of training samples. Although a line
of defense methods is proposed to mitigate this threat, they either require
complicated modifications to the training process or heavily rely on the
specific model architecture, which makes them hard to deploy into real-world
applications. Therefore, in this paper, we instead start with fine-tuning, one
of the most common and easy-to-deploy backdoor defenses, through comprehensive
evaluations against diverse attack scenarios. Observations made through initial
experiments show that in contrast to the promising defensive results on high
poisoning rates, vanilla tuning methods completely fail at low poisoning rate
scenarios. Our analysis shows that with the low poisoning rate, the
entanglement between backdoor and clean features undermines the effect of
tuning-based defenses. Therefore, it is necessary to disentangle the backdoor
and clean features in order to improve backdoor purification. To address this,
we introduce Feature Shift Tuning (FST), a method for tuning-based backdoor
purification. Specifically, FST encourages feature shifts by actively deviating
the classifier weights from the originally compromised weights. Extensive
experiments demonstrate that our FST provides consistently stable performance
under different attack settings. Additionally, it is also convenient to deploy
in real-world scenarios with significantly reduced computation costs. Our codes
are available at
\url{https://github.com/AISafety-HKUST/stable_backdoor_purification}.
- Abstract(参考訳): ディープニューラルネットワーク(dnn)は、少数のトレーニングサンプルを改ざんすることで、攻撃者がモデル動作を悪意を持って操作できるバックドア攻撃に対して脆弱であることが広く観察されている。
この脅威を軽減するために一連の防御手法が提案されているが、それらはトレーニングプロセスに複雑な修正を必要とするか、特定のモデルアーキテクチャに強く依存しているため、現実世界のアプリケーションへのデプロイが困難である。
そこで本稿では,多様な攻撃シナリオに対する包括的評価を通じて,最も一般的かつデプロイが容易なバックドア防御の1つである微調整から始める。
初期の実験を通して行われた観測によると、高毒性率の予測された防御効果とは対照的に、バニラチューニング手法は低毒性率のシナリオで完全に失敗する。
分析の結果,低中毒率ではバックドアとクリーンな特徴の絡み合いが,チューニングによる防御効果を損なうことが示された。
そのため、バックドアの浄化を改善するために、バックドアとクリーンな特徴を解体する必要がある。
これを解決するために,チューニングに基づくバックドア浄化手法であるFeature Shift Tuning (FST)を導入する。
具体的には、FSTは、もともと妥協された重みから分類器の重みを積極的に逸脱することで特徴シフトを奨励する。
大規模な実験により、FSTは異なる攻撃条件下で一貫した安定した性能を提供することが示された。
さらに、計算コストを大幅に削減した実世界のシナリオでのデプロイも便利である。
我々のコードは \url{https://github.com/AISafety-HKUST/stable_backdoor_purification} で利用可能です。
関連論文リスト
- Uncovering, Explaining, and Mitigating the Superficial Safety of Backdoor Defense [27.471096446155933]
現行のバックドア浄化法における精製後ロバスト性について検討した。
現在の安全浄化法は, バックドア行動の迅速な再学習に弱いことが判明した。
モデル更新を伴うバックドア接続経路の偏差を緩和するチューニングディフェンス,Path-Aware Minimization (PAM)を提案する。
論文 参考訳(メタデータ) (2024-10-13T13:37:36Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning [57.50274256088251]
パラメータ効率のよい微調整(PEFT)は,重み付けによるバックドア攻撃の影響を受けやすいことを示す。
PEFTを利用したPSIM(Poisoned Sample Identification Module)を開発した。
テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。
論文 参考訳(メタデータ) (2024-02-19T14:22:54Z) - Model Supply Chain Poisoning: Backdooring Pre-trained Models via Embedding Indistinguishability [61.549465258257115]
そこで我々は,PTMに埋め込まれたバックドアをモデルサプライチェーンに効率的に移動させる,新しい,より厳しいバックドア攻撃であるTransTrojを提案する。
実験の結果,本手法はSOTAタスク非依存のバックドア攻撃より有意に優れていた。
論文 参考訳(メタデータ) (2024-01-29T04:35:48Z) - Backdoor Mitigation by Correcting the Distribution of Neural Activations [30.554700057079867]
バックドア(トロイジャン)攻撃はディープニューラルネットワーク(DNN)に対する敵対的攻撃の重要なタイプである
バックドア攻撃の重要な特性を解析し、バックドア・トリガー・インスタンスの内部層活性化の分布の変化を引き起こす。
本稿では,分散変化を補正し,学習後のバックドア緩和を効果的かつ効果的に行う方法を提案する。
論文 参考訳(メタデータ) (2023-08-18T22:52:29Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - BATT: Backdoor Attack with Transformation-based Triggers [72.61840273364311]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアの敵は、敵が特定したトリガーパターンによって活性化される隠れたバックドアを注入する。
最近の研究によると、既存の攻撃のほとんどは現実世界で失敗した。
論文 参考訳(メタデータ) (2022-11-02T16:03:43Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。