論文の概要: BeDKD: Backdoor Defense based on Dynamic Knowledge Distillation and Directional Mapping Modulator
- arxiv url: http://arxiv.org/abs/2508.01595v1
- Date: Sun, 03 Aug 2025 05:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 14:03:20.066654
- Title: BeDKD: Backdoor Defense based on Dynamic Knowledge Distillation and Directional Mapping Modulator
- Title(参考訳): BeDKD:動的知識蒸留と方向マッピング変調器に基づくバックドアディフェンス
- Authors: Zhengxian Wu, Juan Wen, Wanli Peng, Yinghan Zhou, Changtong dou, Yiming Xue,
- Abstract要約: 指向性マッピングモジュールと対角的知識蒸留(BeDKD)に基づく新しいバックドア防御手法を提案する。
BeDKDは最先端の防御を克服し、CACCを大幅に削減することなく、ASRを98%削減する。
- 参考スコア(独自算出の注目度): 9.581510737256389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although existing backdoor defenses have gained success in mitigating backdoor attacks, they still face substantial challenges. In particular, most of them rely on large amounts of clean data to weaken the backdoor mapping but generally struggle with residual trigger effects, resulting in persistently high attack success rates (ASR). Therefore, in this paper, we propose a novel Backdoor defense method based on Directional mapping module and adversarial Knowledge Distillation (BeDKD), which balances the trade-off between defense effectiveness and model performance using a small amount of clean and poisoned data. We first introduce a directional mapping module to identify poisoned data, which destroys clean mapping while keeping backdoor mapping on a small set of flipped clean data. Then, the adversarial knowledge distillation is designed to reinforce clean mapping and suppress backdoor mapping through a cycle iteration mechanism between trust and punish distillations using clean and identified poisoned data. We conduct experiments to mitigate mainstream attacks on three datasets, and experimental results demonstrate that BeDKD surpasses the state-of-the-art defenses and reduces the ASR by 98% without significantly reducing the CACC. Our code are available in https://github.com/CAU-ISS-Lab/Backdoor-Attack-Defense-LLMs/tree/main/BeDKD.
- Abstract(参考訳): 既存のバックドア防衛は、バックドア攻撃を緩和することに成功したが、依然として重大な課題に直面している。
特に、そのほとんどはバックドアマッピングを弱めるために大量のクリーンデータに依存しているが、通常、残留的なトリガー効果に苦しむため、攻撃の成功率(ASR)は持続的に高い。
そこで本研究では,少数の清浄・毒性データを用いて,防衛効果とモデル性能のトレードオフをバランスさせる,指向性マッピングモジュールと逆知識蒸留(BeDKD)に基づく新しいバックドア防御手法を提案する。
まず、毒データを特定するための方向マッピングモジュールを導入し、小さなフリップしたクリーンデータに対してバックドアマッピングを維持しながらクリーンマッピングを破棄する。
そして、クリーンで特定された有毒データを用いて、信頼と罰のサイクル反復機構を通じて、クリーンマッピングを強化し、バックドアマッピングを抑えるために、敵の知識蒸留を設計する。
我々は,3つのデータセットに対する主流攻撃を軽減する実験を行い,BeDKDが最先端の防御を克服し,CACCを大幅に減少させることなく,ASRを98%削減することを示した。
私たちのコードはhttps://github.com/CAU-ISS-Lab/Backdoor-Attack-Defense-LLMs/tree/main/BeDKDで利用可能です。
関連論文リスト
- CLIP-Guided Backdoor Defense through Entropy-Based Poisoned Dataset Separation [10.162187097557576]
ディープニューラルネットワーク(Deep Neural Networks, DNN)は、バックドア攻撃の影響を受ける。
有毒データに対する現在のバックドア防御は、しばしば高い計算コストや、クリーンラベルやクリーンイメージバックドアのような高度な攻撃に対する低い効果に悩まされる。
CLIP誘導型バックドアディフェンス(CGD)は,様々なバックドア攻撃を軽減し,効率的かつ効果的な方法である。
論文 参考訳(メタデータ) (2025-07-07T15:29:26Z) - Data Free Backdoor Attacks [83.10379074100453]
DFBAは、モデルアーキテクチャを変更することなく、リトレーニングフリーでデータフリーのバックドア攻撃である。
我々の注入されたバックドアは、様々な最先端の防御策によって、検出不可能で、検出不能であることを確認した。
複数のデータセットに対する評価では,1) 無視可能な分類損失,2) 攻撃成功率,3) 既存の6つの防御を回避している。
論文 参考訳(メタデータ) (2024-12-09T05:30:25Z) - DMGNN: Detecting and Mitigating Backdoor Attacks in Graph Neural Networks [30.766013737094532]
我々は,DMGNNを,アウト・オブ・ディストリビューション(OOD)およびイン・ディストリビューション(ID)グラフバックドア攻撃に対して提案する。
DMGNNは、偽説明に基づいてラベル遷移を予測することによって、隠されたIDとOODトリガを容易に識別できる。
DMGNNは最新技術(SOTA)防衛法をはるかに上回り、モデル性能のほとんど無視できる劣化を伴って攻撃成功率を5%に低下させる。
論文 参考訳(メタデータ) (2024-10-18T01:08:03Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Elijah: Eliminating Backdoors Injected in Diffusion Models via
Distribution Shift [86.92048184556936]
DMの最初のバックドア検出・除去フレームワークを提案する。
DDPM, NCSN, LDMを含む3種類のDMを用いて, フレームワークのElijahを評価した。
提案手法では, モデルの有用性を著しく損なうことなく, 検出精度が100%に近づき, バックドア効果をゼロに抑えることができる。
論文 参考訳(メタデータ) (2023-11-27T23:58:56Z) - Beating Backdoor Attack at Its Own Game [10.106197319676294]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
既存の防御方法は、攻撃の成功率を大幅に低下させた。
有害な試料を標的とした非敵のバックドアを注入する高効率な枠組みを提案する。
論文 参考訳(メタデータ) (2023-07-28T13:07:42Z) - INK: Inheritable Natural Backdoor Attack Against Model Distillation [8.937026844871074]
InKは、モデル蒸留を標的とした、継承可能な自然バックドアアタックである。
INKは画像のばらつきをバックドアトリガーとして採用し、クリーンイメージとクリーンラベル攻撃の両方を可能にする。
例えば、INKは、既存の方法では平均1.4%の攻撃成功率に対して、蒸留後98%以上の攻撃成功率を維持している。
論文 参考訳(メタデータ) (2023-04-21T14:35:47Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。