論文の概要: Fusing Pruned and Backdoored Models: Optimal Transport-based Data-free Backdoor Mitigation
- arxiv url: http://arxiv.org/abs/2408.15861v1
- Date: Wed, 28 Aug 2024 15:21:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 15:31:11.295935
- Title: Fusing Pruned and Backdoored Models: Optimal Transport-based Data-free Backdoor Mitigation
- Title(参考訳): Fusing Pruned and Backdoored Models:Optimal Transport-based Data-free Backdoor Mitigation
- Authors: Weilin Lin, Li Liu, Jianze Li, Hui Xiong,
- Abstract要約: バックドア攻撃はディープニューロンネットワーク(DNN)に深刻な脅威をもたらす
本研究は,OTBR(Optimal Transport-based Backdoor repairing)と呼ばれる新しいデータ自由防衛手法を提案する。
私たちの知る限りでは、OTとモデル融合技術をバックドアディフェンスに適用するのはこれが初めてです。
- 参考スコア(独自算出の注目度): 22.698855006036748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks present a serious security threat to deep neuron networks (DNNs). Although numerous effective defense techniques have been proposed in recent years, they inevitably rely on the availability of either clean or poisoned data. In contrast, data-free defense techniques have evolved slowly and still lag significantly in performance. To address this issue, different from the traditional approach of pruning followed by fine-tuning, we propose a novel data-free defense method named Optimal Transport-based Backdoor Repairing (OTBR) in this work. This method, based on our findings on neuron weight changes (NWCs) of random unlearning, uses optimal transport (OT)-based model fusion to combine the advantages of both pruned and backdoored models. Specifically, we first demonstrate our findings that the NWCs of random unlearning are positively correlated with those of poison unlearning. Based on this observation, we propose a random-unlearning NWC pruning technique to eliminate the backdoor effect and obtain a backdoor-free pruned model. Then, motivated by the OT-based model fusion, we propose the pruned-to-backdoored OT-based fusion technique, which fuses pruned and backdoored models to combine the advantages of both, resulting in a model that demonstrates high clean accuracy and a low attack success rate. To our knowledge, this is the first work to apply OT and model fusion techniques to backdoor defense. Extensive experiments show that our method successfully defends against all seven backdoor attacks across three benchmark datasets, outperforming both state-of-the-art (SOTA) data-free and data-dependent methods. The code implementation and Appendix are provided in the Supplementary Material.
- Abstract(参考訳): バックドア攻撃はディープニューロンネットワーク(DNN)に深刻なセキュリティ脅威をもたらす。
近年、多くの効果的な防御技術が提案されているが、清潔なデータや有毒なデータの入手に必然的に依存している。
対照的に、データフリーの防御技術は徐々に進化し、性能は著しく遅れている。
この課題に対処するために,本研究において, 最適輸送型バックドア修復法 (OTBR) というデータ自由防衛手法を提案する。
本手法は, ランダムアンラーニングにおけるニューロン量変化(NWC)に関する知見に基づいて, 最適輸送(OT)モデル融合を用いて, プルーニングモデルとバックドアモデルの両方の利点を組み合わせたものである。
具体的には,ランダムアンラーニングのNWCが有毒アンラーニングのNWCと正の相関を示す。
本研究は, バックドア効果を排除し, バックドアフリープルーニングモデルを得るために, ランダムに学習したNWCプルーニング手法を提案する。
次に, OTモデル融合の動機付けとして, プルーニングモデルとバックドアモデルとを融合させて両者の利点を融合させる, プルーニング・ツー・バックドアモデル融合手法を提案する。
私たちの知る限りでは、OTとモデル融合技術をバックドアディフェンスに適用するのはこれが初めてです。
大規模な実験により,本手法は3つのベンチマークデータセットのバックドア攻撃に対する防御に成功し,SOTA(State-of-the-art Data-free)とデータ依存(Data-dependent)の両方よりも優れていた。
コード実装とAppendixは、Supplementary Materialで提供される。
関連論文リスト
- Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - Unveiling and Mitigating Backdoor Vulnerabilities based on Unlearning Weight Changes and Backdoor Activeness [23.822040810285717]
クリーンなデータを学習し、プルーニングマスクを学習するアンラーニングモデルは、バックドアディフェンスに寄与している。
本研究では,重み変化と勾配ノルムの観点から,モデルアンラーニングについて検討する。
最初の段階では、観測1に基づいて、効率的なニューロン量変化(NWC)に基づくバックドア再初期化を提案する。
第2段階では、観測2に基づいて、バニラファインチューニングに代わるアクティブネス対応ファインチューニングを設計する。
論文 参考訳(メタデータ) (2024-05-30T17:41:32Z) - Towards Unified Robustness Against Both Backdoor and Adversarial Attacks [31.846262387360767]
ディープニューラルネットワーク(DNN)は、バックドアと敵の攻撃の両方に対して脆弱であることが知られている。
本稿では,バックドアと敵の攻撃との間には興味深い関係があることを明らかにする。
バックドアと敵の攻撃を同時に防御する新しいプログレッシブ統一防衛アルゴリズムが提案されている。
論文 参考訳(メタデータ) (2024-05-28T07:50:00Z) - Concealing Backdoor Model Updates in Federated Learning by Trigger-Optimized Data Poisoning [20.69655306650485]
Federated Learning(FL)は、参加者がプライベートデータを共有せずに、協力的にモデルをトレーニングできる分散型機械学習手法である。
プライバシーとスケーラビリティの利点にもかかわらず、FLはバックドア攻撃の影響を受けやすい。
本稿では,バックドアトリガの最適化によりバックドア目標を動的に構築する,FLのバックドア攻撃戦略であるDPOTを提案する。
論文 参考訳(メタデータ) (2024-05-10T02:44:25Z) - Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge [17.3048898399324]
オープンソースイニシアチブによる事前訓練された言語モデルの民主化は、急速に革新と最先端技術へのアクセスを拡大している。
特定の入力によって隠れた悪意のある振る舞いが引き起こされ、自然言語処理(NLP)システムの完全性と信頼性を損なうバックドア攻撃。
本稿では,バックドアモデルと他の同質モデルとを組み合わせることで,バックドアの脆弱性を著しく改善することができることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T16:37:08Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Fine-mixing: Mitigating Backdoors in Fine-tuned Language Models [48.82102540209956]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に弱いことが知られている。
自然言語処理(NLP)では、DNNは、有毒なサンプルを持つ大規模事前学習言語モデル(PLM)の微調整プロセス中にバックドアされることが多い。
本研究では、事前訓練された(未調整の)重みを利用して、微調整された言語モデルにおけるバックドアを緩和する第一歩を踏み出す。
論文 参考訳(メタデータ) (2022-10-18T02:44:38Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。