Fugu-MT 論文翻訳(概要): Towards Stable Backdoor Purification through Feature Shift Tuning

論文の概要: Towards Stable Backdoor Purification through Feature Shift Tuning

arxiv url: http://arxiv.org/abs/2310.01875v3
Date: Sat, 21 Oct 2023 12:37:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 06:58:32.941870
Title: Towards Stable Backdoor Purification through Feature Shift Tuning
Title（参考訳）: 機能シフト調整による安定なバックドア浄化に向けて
Authors: Rui Min, Zeyu Qin, Li Shen, Minhao Cheng
Abstract要約: ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。本稿では,最も一般的かつ容易に配置可能なバックドアディフェンスであるファインチューニングから始める。チューニングに基づくバックドア浄化手法であるFeature Shift Tuning (FST)を紹介する。
参考スコア（独自算出の注目度）: 22.529990213795216
License: http://creativecommons.org/licenses/by/4.0/
Abstract: It has been widely observed that deep neural networks (DNN) are vulnerable to backdoor attacks where attackers could manipulate the model behavior maliciously by tampering with a small set of training samples. Although a line of defense methods is proposed to mitigate this threat, they either require complicated modifications to the training process or heavily rely on the specific model architecture, which makes them hard to deploy into real-world applications. Therefore, in this paper, we instead start with fine-tuning, one of the most common and easy-to-deploy backdoor defenses, through comprehensive evaluations against diverse attack scenarios. Observations made through initial experiments show that in contrast to the promising defensive results on high poisoning rates, vanilla tuning methods completely fail at low poisoning rate scenarios. Our analysis shows that with the low poisoning rate, the entanglement between backdoor and clean features undermines the effect of tuning-based defenses. Therefore, it is necessary to disentangle the backdoor and clean features in order to improve backdoor purification. To address this, we introduce Feature Shift Tuning (FST), a method for tuning-based backdoor purification. Specifically, FST encourages feature shifts by actively deviating the classifier weights from the originally compromised weights. Extensive experiments demonstrate that our FST provides consistently stable performance under different attack settings. Without complex parameter adjustments, FST also achieves much lower tuning costs, only 10 epochs. Our codes are available at https://github.com/AISafety-HKUST/stable_backdoor_purification.
Abstract（参考訳）: ディープニューラルネットワーク(dnn)は、少数のトレーニングサンプルを改ざんすることで、攻撃者がモデル動作を悪意を持って操作できるバックドア攻撃に対して脆弱であることが広く観察されている。この脅威を軽減するために一連の防御手法が提案されているが、それらはトレーニングプロセスに複雑な修正を必要とするか、特定のモデルアーキテクチャに強く依存しているため、現実世界のアプリケーションへのデプロイが困難である。そこで本稿では,多様な攻撃シナリオに対する包括的評価を通じて,最も一般的かつデプロイが容易なバックドア防御の1つである微調整から始める。初期の実験を通して行われた観測によると、高毒性率の予測された防御効果とは対照的に、バニラチューニング手法は低毒性率のシナリオで完全に失敗する。分析の結果,低中毒率ではバックドアとクリーンな特徴の絡み合いが,チューニングによる防御効果を損なうことが示された。そのため、バックドアの浄化を改善するために、バックドアとクリーンな特徴を解体する必要がある。これを解決するために,チューニングに基づくバックドア浄化手法であるFeature Shift Tuning (FST)を導入する。具体的には、FSTは、もともと妥協された重みから分類器の重みを積極的に逸脱することで特徴シフトを奨励する。大規模な実験により、FSTは異なる攻撃条件下で一貫した安定した性能を提供することが示された。複雑なパラメータ調整がなければ、FSTはチューニングコストも大幅に低くなり、10エポックしか得られない。私たちのコードはhttps://github.com/AISafety-HKUST/stable_backdoor_purificationで利用可能です。

関連論文リスト

Kill it with FIRE: On Leveraging Latent Space Directions for Runtime Backdoor Mitigation in Deep Neural Networks [1.9517610560768623]
よく知られた脆弱性は、有毒なトレーニングデータや悪意のあるトレーニングプロセスによってニューラルネットワークに導入されたバックドアである。提案手法はFIRE (Inference-time backdoor mitigation approach) である。我々はトリガーを、推論機構を補正するために逆に適用できる層間の潜伏空間の方向と見なす。
論文参考訳（メタデータ） (2026-02-11T12:13:25Z)
Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in Pre-trained Vision-Language Models [42.81731204702258]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトによって間接的に汚染された視覚言語モデル(VLM)を浄化する効率的な方法である。 CBPTは、7つの主要なバックドア攻撃に対して平均的クリーン精度(CA)58.86%、アタック成功率(ASR)0.39%のモデルユーティリティを維持しながら、バックドアの脅威を著しく軽減する。
論文参考訳（メタデータ） (2025-02-26T16:25:15Z)
An Effective and Resilient Backdoor Attack Framework against Deep Neural Networks and Vision Transformers [22.77836113915616]
本稿では,最適なトリガ形状と位置を探索する,注目に基づく新しいマスク生成手法を提案する。また、損失関数にQuality-of-Experienceという用語を導入し、トリガの透明性値を慎重に調整する。提案したバックドア攻撃フレームワークは,最先端のバックドア防御に対する堅牢性を示す。
論文参考訳（メタデータ） (2024-12-09T02:03:27Z)
Uncovering, Explaining, and Mitigating the Superficial Safety of Backdoor Defense [27.471096446155933]
現行のバックドア浄化法における精製後ロバスト性について検討した。現在の安全浄化法は, バックドア行動の迅速な再学習に弱いことが判明した。モデル更新を伴うバックドア接続経路の偏差を緩和するチューニングディフェンス,Path-Aware Minimization (PAM)を提案する。
論文参考訳（メタデータ） (2024-10-13T13:37:36Z)
Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文参考訳（メタデータ） (2024-09-29T02:55:38Z)
Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning [57.50274256088251]
パラメータ効率のよい微調整(PEFT)は,重み付けによるバックドア攻撃の影響を受けやすいことを示す。 PEFTを利用したPSIM(Poisoned Sample Identification Module)を開発した。テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。
論文参考訳（メタデータ） (2024-02-19T14:22:54Z)
Model Supply Chain Poisoning: Backdooring Pre-trained Models via Embedding Indistinguishability [61.549465258257115]
そこで我々は,PTMに埋め込まれたバックドアをモデルサプライチェーンに効率的に移動させる,新しい,より厳しいバックドア攻撃であるTransTrojを提案する。実験の結果,本手法はSOTAタスク非依存のバックドア攻撃より有意に優れていた。
論文参考訳（メタデータ） (2024-01-29T04:35:48Z)
Backdoor Mitigation by Correcting the Distribution of Neural Activations [30.554700057079867]
バックドア(トロイジャン)攻撃はディープニューラルネットワーク(DNN)に対する敵対的攻撃の重要なタイプであるバックドア攻撃の重要な特性を解析し、バックドア・トリガー・インスタンスの内部層活性化の分布の変化を引き起こす。本稿では,分散変化を補正し,学習後のバックドア緩和を効果的かつ効果的に行う方法を提案する。
論文参考訳（メタデータ） (2023-08-18T22:52:29Z)
Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。バックドアアタックは、訓練段階の脅威を脅かしている。軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文参考訳（メタデータ） (2023-05-11T10:05:57Z)
BATT: Backdoor Attack with Transformation-based Triggers [72.61840273364311]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。バックドアの敵は、敵が特定したトリガーパターンによって活性化される隠れたバックドアを注入する。最近の研究によると、既存の攻撃のほとんどは現実世界で失敗した。
論文参考訳（メタデータ） (2022-11-02T16:03:43Z)
Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文参考訳（メタデータ） (2022-11-02T15:39:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。