論文の概要: Cut the Deadwood Out: Post-Training Model Purification with Selective Module Substitution
- arxiv url: http://arxiv.org/abs/2412.20476v1
- Date: Sun, 29 Dec 2024 14:29:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:01:51.632980
- Title: Cut the Deadwood Out: Post-Training Model Purification with Selective Module Substitution
- Title(参考訳): デッドウッドを除去する:選択的なモジュール置換による後モデル精製
- Authors: Yao Tong, Weijun Li, Xuanli He, Haolan Zhan, Qiongkai Xu,
- Abstract要約: HuggingFaceのようなオープンソースのプラットフォームからの公開データセットが人気を集めており、データ中毒攻撃の重大なリスクを生じさせている。
本稿では,Greedy Module Substitution (GMS)を提案する。
本手法は,クリーンなデータセットやクリーンな補助モデルに対する事前モデル浄化手法の共通依存性を緩和する。
- 参考スコア(独自算出の注目度): 18.351463476326984
- License:
- Abstract: The success of DNNs often depends on training with large-scale datasets, but building such datasets is both expensive and challenging. Consequently, public datasets from open-source platforms like HuggingFace have become popular, posing significant risks of data poisoning attacks. Existing backdoor defenses in NLP primarily focus on identifying and removing poisoned samples; however, purifying a backdoored model with these sample-cleaning approaches typically requires expensive retraining. Therefore, we propose Greedy Module Substitution (GMS), which identifies and substitutes ''deadwood'' modules (i.e., components critical to backdoor pathways) in a backdoored model to purify it. Our method relaxes the common dependency of prior model purification methods on clean datasets or clean auxiliary models. When applied to RoBERTa-large under backdoor attacks, GMS demonstrates strong effectiveness across various settings, particularly against widely recognized challenging attacks like LWS, achieving a post-purification attack success rate (ASR) of 9.7% on SST-2 compared to 58.8% for the best baseline approach.
- Abstract(参考訳): DNNの成功は、しばしば大規模なデータセットによるトレーニングに依存するが、そのようなデータセットの構築は高価かつ困難である。
その結果、HuggingFaceのようなオープンソースのプラットフォームからの公開データセットが人気となり、データ中毒攻撃の重大なリスクを生じさせている。
既存のNLPのバックドアディフェンスは主に有毒なサンプルの識別と除去に重点を置いているが、これらのサンプルクリーニングアプローチによるバックドアモデルの浄化には、通常、高価な再トレーニングが必要である。
そこで本稿では, バックドアモデルで'deadwood'モジュール(つまり, バックドア経路に不可欠なコンポーネント)を特定し, 置換するGreedy Module Substitution (GMS)を提案する。
本手法は,クリーンなデータセットやクリーンな補助モデルに対する事前モデル浄化手法の共通依存性を緩和する。
バックドア攻撃下でのRoBERTa-largeに適用した場合、GMSは、特にLWSのような広く認識されている挑戦的な攻撃に対して、最高のベースラインアプローチでは58.8%に対して、SST-2では9.7%のパーフィケーション攻撃成功率(ASR)を達成した。
関連論文リスト
- Uncovering, Explaining, and Mitigating the Superficial Safety of Backdoor Defense [27.471096446155933]
現行のバックドア浄化法における精製後ロバスト性について検討した。
現在の安全浄化法は, バックドア行動の迅速な再学習に弱いことが判明した。
モデル更新を伴うバックドア接続経路の偏差を緩和するチューニングディフェンス,Path-Aware Minimization (PAM)を提案する。
論文 参考訳(メタデータ) (2024-10-13T13:37:36Z) - PAD-FT: A Lightweight Defense for Backdoor Attacks via Data Purification and Fine-Tuning [4.337364406035291]
バックドア攻撃はディープニューラルネットワークに重大な脅威をもたらす。
そこで,本論文では,新たな手法であるPAD-FTを提案する。この機構は,被害者モデルに悪影響を及ぼすために,新たなクリーンデータセットやファインチューンのみを必要としない。
本機構は,複数のバックドア攻撃手法やデータセットに対して優れた効果を示す。
論文 参考訳(メタデータ) (2024-09-18T15:47:23Z) - Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models [3.134071086568745]
拡散モデル(DM)は、今日では最も先進的な生成モデルの一つと見なされている。
近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。
この脆弱性は、モデル所有者に評判を害するなど、重大なリスクをもたらす。
Diff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
論文 参考訳(メタデータ) (2024-07-31T03:54:41Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation [120.42853706967188]
本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。
既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Progressive Poisoned Data Isolation for Training-time Backdoor Defense [23.955347169187917]
ディープニューラルネットワーク(DNN)は、悪意のある攻撃者がデータ中毒によってモデルの予測を操作するバックドア攻撃の影響を受けやすい。
本研究では, PPD (Progressive isolated of Poisoned Data) と呼ばれる, 新規かつ効果的な防御手法を提案する。
我々のPIPDは99.95%の平均真正率(TPR)を達成し、CIFAR-10データセットに対する多様な攻撃に対して平均偽正率(FPR)を0.06%とした。
論文 参考訳(メタデータ) (2023-12-20T02:40:28Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。