論文の概要: Cut the Deadwood Out: Backdoor Purification via Guided Module Substitution
- arxiv url: http://arxiv.org/abs/2412.20476v2
- Date: Tue, 30 Sep 2025 15:49:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:03.878081
- Title: Cut the Deadwood Out: Backdoor Purification via Guided Module Substitution
- Title(参考訳): デッドウッドの取り外し:ガイド付きモジュールによるバックドアの浄化
- Authors: Yao Tong, Weijun Li, Xuanli He, Haolan Zhan, Qiongkai Xu,
- Abstract要約: モデルNLPモデルは、HuggingFaceのような信頼できないプラットフォームからのデータセットに対して、一般的に訓練(あるいは微調整)される。
本稿では,単一のプロキシモデルを用いて,被害者モデルのガイド型マージに基づく効果的なリトレーニングフリー手法であるガイドモジュール置換(GMS)を提案する。
GMSは、特にLWSのような挑戦的な攻撃に対して、最強の防衛ベースラインさえも大きく上回っている。
- 参考スコア(独自算出の注目度): 28.661437014249213
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Model NLP models are commonly trained (or fine-tuned) on datasets from untrusted platforms like HuggingFace, posing significant risks of data poisoning attacks. A practical yet underexplored challenge arises when such backdoors are discovered after model deployment, making retraining-required defenses less desirable due to computational costs and data constraints. In this work, we propose Guided Module Substitution (GMS), an effective retraining-free method based on guided merging of the victim model with just a single proxy model. Unlike prior ad-hoc merging defenses, GMS uses a guided trade-off signal between utility and backdoor to selectively replaces modules in the victim model. GMS offers four desirable properties: (1) robustness to the choice and trustworthiness of the proxy model, (2) applicability under inaccurate data knowledge, (3) stability across hyperparameters, and (4) transferability across different attacks. Extensive experiments on encoder models and decoder LLMs demonstrate the strong effectiveness of GMS. GMS significantly outperforms even the strongest defense baseline, particularly against challenging attacks like LWS.
- Abstract(参考訳): モデルNLPモデルは、HuggingFaceのような信頼できないプラットフォームからデータセットをトレーニング(あるいは微調整)し、データ中毒攻撃の重大なリスクを負う。
このようなバックドアがモデル展開後に発見され、計算コストやデータ制約のため、再訓練要求の防御があまり望ましくない場合、実際は未発見の課題が生じる。
本稿では,単一のプロキシモデルを用いて,被害者モデルのガイド付きマージに基づく効果的なリトレーニングフリー手法である Guided Module Substitution (GMS) を提案する。
従来のアドホックなマージディフェンスとは異なり、GMSはユーティリティとバックドアの間のガイド付きトレードオフ信号を使用して、被害者モデルのモジュールを選択的に置き換える。
GMSは、(1)プロキシモデルの選択と信頼性に対する堅牢性、(2)不正確なデータ知識による適用性、(3)ハイパーパラメータ間の安定性、(4)異なる攻撃間の転送性、の4つの望ましい特性を提供する。
エンコーダモデルとデコーダLLMの大規模な実験は、GMSの強い効果を示す。
GMSは、特にLWSのような挑戦的な攻撃に対して、最強の防衛ベースラインさえも大きく上回っている。
関連論文リスト
- DUP: Detection-guided Unlearning for Backdoor Purification in Language Models [6.726081307488787]
DUP (Detection-guided Unlearning for Purification) は、非学習ベースの浄化とバックドア検出を統合するフレームワークである。
検出結果に基づいてパラメータ効率の低い未学習機構を用いてモデルを浄化する。
私たちのコードはhttps://github.com/ManHu2025/DUP.comで公開されています。
論文 参考訳(メタデータ) (2025-08-03T08:12:21Z) - No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - Uncovering, Explaining, and Mitigating the Superficial Safety of Backdoor Defense [27.471096446155933]
現行のバックドア浄化法における精製後ロバスト性について検討した。
現在の安全浄化法は, バックドア行動の迅速な再学習に弱いことが判明した。
モデル更新を伴うバックドア接続経路の偏差を緩和するチューニングディフェンス,Path-Aware Minimization (PAM)を提案する。
論文 参考訳(メタデータ) (2024-10-13T13:37:36Z) - PAD-FT: A Lightweight Defense for Backdoor Attacks via Data Purification and Fine-Tuning [4.337364406035291]
バックドア攻撃はディープニューラルネットワークに重大な脅威をもたらす。
そこで,本論文では,新たな手法であるPAD-FTを提案する。この機構は,被害者モデルに悪影響を及ぼすために,新たなクリーンデータセットやファインチューンのみを必要としない。
本機構は,複数のバックドア攻撃手法やデータセットに対して優れた効果を示す。
論文 参考訳(メタデータ) (2024-09-18T15:47:23Z) - Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models [3.134071086568745]
拡散モデル(DM)は、今日では最も先進的な生成モデルの一つと見なされている。
近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。
この脆弱性は、モデル所有者に評判を害するなど、重大なリスクをもたらす。
Diff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
論文 参考訳(メタデータ) (2024-07-31T03:54:41Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation [120.42853706967188]
本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。
既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Progressive Poisoned Data Isolation for Training-time Backdoor Defense [23.955347169187917]
ディープニューラルネットワーク(DNN)は、悪意のある攻撃者がデータ中毒によってモデルの予測を操作するバックドア攻撃の影響を受けやすい。
本研究では, PPD (Progressive isolated of Poisoned Data) と呼ばれる, 新規かつ効果的な防御手法を提案する。
我々のPIPDは99.95%の平均真正率(TPR)を達成し、CIFAR-10データセットに対する多様な攻撃に対して平均偽正率(FPR)を0.06%とした。
論文 参考訳(メタデータ) (2023-12-20T02:40:28Z) - Effective Backdoor Mitigation in Vision-Language Models Depends on the Pre-training Objective [71.39995120597999]
現代の機械学習モデルは、敵の攻撃やバックドア攻撃に弱い。
このようなリスクは、マルチモーダルモデルをトレーニングするための大規模なインターネットソースデータセット収集の一般的なプラクティスによって高められている。
CleanCLIPは、マルチモーダルモデルにおけるバックドア効果を軽減するための最先端のアプローチである。
論文 参考訳(メタデータ) (2023-11-25T06:55:13Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。