論文の概要: PAD-FT: A Lightweight Defense for Backdoor Attacks via Data Purification and Fine-Tuning
- arxiv url: http://arxiv.org/abs/2409.12072v1
- Date: Wed, 18 Sep 2024 15:47:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 16:55:29.558038
- Title: PAD-FT: A Lightweight Defense for Backdoor Attacks via Data Purification and Fine-Tuning
- Title(参考訳): PAD-FT:データ浄化と微調整によるバックドア攻撃の軽量防御
- Authors: Yukai Xu, Yujie Gu, Kouichi Sakurai,
- Abstract要約: バックドア攻撃はディープニューラルネットワークに重大な脅威をもたらす。
そこで,本論文では,新たな手法であるPAD-FTを提案する。この機構は,被害者モデルに悪影響を及ぼすために,新たなクリーンデータセットやファインチューンのみを必要としない。
本機構は,複数のバックドア攻撃手法やデータセットに対して優れた効果を示す。
- 参考スコア(独自算出の注目度): 4.337364406035291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks pose a significant threat to deep neural networks, particularly as recent advancements have led to increasingly subtle implantation, making the defense more challenging. Existing defense mechanisms typically rely on an additional clean dataset as a standard reference and involve retraining an auxiliary model or fine-tuning the entire victim model. However, these approaches are often computationally expensive and not always feasible in practical applications. In this paper, we propose a novel and lightweight defense mechanism, termed PAD-FT, that does not require an additional clean dataset and fine-tunes only a very small part of the model to disinfect the victim model. To achieve this, our approach first introduces a simple data purification process to identify and select the most-likely clean data from the poisoned training dataset. The self-purified clean dataset is then used for activation clipping and fine-tuning only the last classification layer of the victim model. By integrating data purification, activation clipping, and classifier fine-tuning, our mechanism PAD-FT demonstrates superior effectiveness across multiple backdoor attack methods and datasets, as confirmed through extensive experimental evaluation.
- Abstract(参考訳): バックドア攻撃はディープニューラルネットワークにとって重大な脅威となり、特に最近の進歩により微妙な移植が進み、防御はより困難になっている。
既存の防御メカニズムは、通常、標準参照として追加のクリーンデータセットに依存し、補助モデルを再トレーニングしたり、犠牲者モデル全体を微調整する。
しかし、これらのアプローチはしばしば計算コストが高く、実用上は必ずしも実現不可能である。
本稿では,PAD-FTと呼ばれる新規で軽量な防御機構を提案する。
これを実現するために,本手法ではまず,有毒なトレーニングデータセットから最もクリーンなデータを特定し,選択するための簡易なデータ浄化プロセスを導入する。
次に、自己精製されたクリーンデータセットを使用して、アクティベーションクリッピングと、被害者モデルの最後の分類層のみを微調整する。
PAD-FTは,データ浄化,アクティベーションクリッピング,分類器の微調整を統合することで,複数のバックドア攻撃手法やデータセットに対して優れた性能を示す。
関連論文リスト
- Revisiting the Auxiliary Data in Backdoor Purification [35.689214077873764]
バックドア攻撃は、攻撃者がトレーニングフェーズ中に機械学習モデルを微妙に操作した場合に発生する。
このような脅威を和らげるためには、様々なバックドアの浄化技術によって被害者のモデルを浄化する戦略が一般的である。
本研究では,SOTAのバックドア浄化技術について,様々な種類の実世界の補助的データセットを用いて検討した。
論文 参考訳(メタデータ) (2025-02-11T03:46:35Z) - Fine-tuning is Not Fine: Mitigating Backdoor Attacks in GNNs with Limited Clean Data [51.745219224707384]
グラフニューラルネットワーク(GNN)は,メッセージパッシング機構を通じて,優れたパフォーマンスを実現している。
最近の研究は、GNNのバックドア攻撃に対する脆弱性を強調している。
本稿では,実践的なバックドア緩和フレームワークである GraphNAD を提案する。
論文 参考訳(メタデータ) (2025-01-10T10:16:35Z) - Defending Against Neural Network Model Inversion Attacks via Data Poisoning [15.099559883494475]
モデル反転攻撃は、機械学習モデルに重大なプライバシー上の脅威をもたらす。
本稿では,プライバシとユーティリティのバランスを改善するための新しい防御機構を提案する。
本稿では,データ中毒を利用したインバージョンモデルのトレーニングデータを汚染する手法を提案する。
論文 参考訳(メタデータ) (2024-12-10T15:08:56Z) - Long-Tailed Backdoor Attack Using Dynamic Data Augmentation Operations [50.1394620328318]
既存のバックドア攻撃は主にバランスの取れたデータセットに焦点を当てている。
動的データ拡張操作(D$2$AO)という効果的なバックドア攻撃を提案する。
本手法は,クリーンな精度を維持しつつ,最先端の攻撃性能を実現することができる。
論文 参考訳(メタデータ) (2024-10-16T18:44:22Z) - Protecting Model Adaptation from Trojans in the Unlabeled Data [120.42853706967188]
本稿では,よく設計された毒物標的データによるモデル適応に対するトロイの木馬攻撃の可能性について検討する。
本稿では,既存の適応アルゴリズムとシームレスに統合可能なDiffAdaptというプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Rethinking Backdoor Attacks on Dataset Distillation: A Kernel Method
Perspective [65.70799289211868]
本稿では, データセット蒸留に特化した2つの新しい理論駆動トリガパターン生成手法を提案する。
最適化に基づくトリガ設計フレームワークは,データセットの蒸留に対する効果的なバックドア攻撃を通知する。
論文 参考訳(メタデータ) (2023-11-28T09:53:05Z) - Neural Polarizer: A Lightweight and Effective Backdoor Defense via
Purifying Poisoned Features [62.82817831278743]
近年の研究では、バックドア攻撃に対するディープニューラルネットワークの感受性が示されている。
本研究では,学習可能なニューラルポーラライザを中間層としてバックドアモデルに挿入することで,新たなバックドア防御手法を提案する。
論文 参考訳(メタデータ) (2023-06-29T05:39:58Z) - Backdoor Attacks Against Dataset Distillation [24.39067295054253]
本研究は,画像領域におけるデータセット蒸留モデルにより抽出されたデータに基づいて訓練されたモデルに対して,最初のバックドア攻撃を行う。
本研究では,NAIVEATTACKとDOORPINGの2種類のバックドア攻撃を提案する。
実験的な評価では、NAIVEATTACKは攻撃成功率(ASR)をある程度達成し、DOORPINGは全てのケースでより高いASRスコア(1.0に近かった)に達する。
論文 参考訳(メタデータ) (2023-01-03T16:58:34Z) - One-shot Neural Backdoor Erasing via Adversarial Weight Masking [8.345632941376673]
Adversarial Weight Masking (AWM)は、ワンショット設定でも神経バックドアを消去できる新しい方法である。
AWMは、さまざまな利用可能なトレーニングデータセットサイズに対する他の最先端メソッドに対する浄化効果を大幅に改善することができる。
論文 参考訳(メタデータ) (2022-07-10T16:18:39Z) - Backdoor Defense with Machine Unlearning [32.968653927933296]
本研究では,マシン・アンラーニングにより,被害者モデルに注入されたバックドアを消去する新しい手法であるBAERASEを提案する。
BAERASEは、4つのベンチマークデータセットに対して、3種類の最先端バックドア攻撃の攻撃成功率を99%下げることができる。
論文 参考訳(メタデータ) (2022-01-24T09:09:12Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。