論文の概要: Backdoor Defense with Machine Unlearning
- arxiv url: http://arxiv.org/abs/2201.09538v1
- Date: Mon, 24 Jan 2022 09:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 17:07:49.612869
- Title: Backdoor Defense with Machine Unlearning
- Title(参考訳): マシンアンラーニングによるバックドア防御
- Authors: Yang Liu, Mingyuan Fan, Cen Chen, Ximeng Liu, Zhuo Ma, Li Wang,
Jianfeng Ma
- Abstract要約: 本研究では,マシン・アンラーニングにより,被害者モデルに注入されたバックドアを消去する新しい手法であるBAERASEを提案する。
BAERASEは、4つのベンチマークデータセットに対して、3種類の最先端バックドア攻撃の攻撃成功率を99%下げることができる。
- 参考スコア(独自算出の注目度): 32.968653927933296
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Backdoor injection attack is an emerging threat to the security of neural
networks, however, there still exist limited effective defense methods against
the attack. In this paper, we propose BAERASE, a novel method that can erase
the backdoor injected into the victim model through machine unlearning.
Specifically, BAERASE mainly implements backdoor defense in two key steps.
First, trigger pattern recovery is conducted to extract the trigger patterns
infected by the victim model. Here, the trigger pattern recovery problem is
equivalent to the one of extracting an unknown noise distribution from the
victim model, which can be easily resolved by the entropy maximization based
generative model. Subsequently, BAERASE leverages these recovered trigger
patterns to reverse the backdoor injection procedure and induce the victim
model to erase the polluted memories through a newly designed gradient ascent
based machine unlearning method. Compared with the previous machine unlearning
solutions, the proposed approach gets rid of the reliance on the full access to
training data for retraining and shows higher effectiveness on backdoor erasing
than existing fine-tuning or pruning methods. Moreover, experiments show that
BAERASE can averagely lower the attack success rates of three kinds of
state-of-the-art backdoor attacks by 99\% on four benchmark datasets.
- Abstract(参考訳): バックドアインジェクション攻撃は、ニューラルネットワークのセキュリティに対する新たな脅威であるが、攻撃に対する効果的な防御方法が限られている。
本稿では,機械学習により被害者モデルに注入されたバックドアを消去する手法であるbaeraseを提案する。
特にBAERASEは、主に2つの重要なステップでバックドアディフェンスを実装している。
まず、被害者モデルに感染したトリガーパターンを抽出するためにトリガーパターン回復を行う。
ここでは、トリガーパターン回復問題は、被害者モデルから未知の雑音分布を抽出したものと等価であり、エントロピー最大化に基づく生成モデルにより容易に解決できる。
その後、BAERASEはこれらの回収されたトリガーパターンを利用して、バックドア注入手順を逆転させ、新たに設計されたグラデーションベースのマシンアンラーニング手法により、汚染された記憶を消去する犠牲者モデルを誘導する。
従来のマシンアンラーニングソリューションと比較して,提案手法ではリトレーニングのためのトレーニングデータへの完全アクセスを廃止し,従来の微調整や刈り取りよりもバックドア消去において高い有効性を示す。
さらに、実験の結果、BAERASEは4つのベンチマークデータセットで3種類の最先端バックドア攻撃の攻撃成功率を平均99%下げることができることがわかった。
関連論文リスト
- Backdoor Attack against One-Class Sequential Anomaly Detection Models [10.020488631167204]
そこで我々は,新たなバックドア攻撃戦略を提案することによって,深部連続異常検出モデルを提案する。
攻撃アプローチは2つの主要なステップ、トリガー生成とバックドアインジェクションから構成される。
2つの確立された1クラスの異常検出モデルにバックドアを注入することにより,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-15T19:19:54Z) - Exploiting Machine Unlearning for Backdoor Attacks in Deep Learning
System [4.9233610638625604]
マシンアンラーニングに基づく新しいブラックボックスバックドア攻撃を提案する。
攻撃者はまず、毒や緩和データを含む慎重に設計されたサンプルでトレーニングセットを強化し、良心のモデルを訓練する。
そして、攻撃者は、モデルの関連するデータの影響を取り除くために、未学習のサンプルに対するリクエストをポストし、徐々に隠れたバックドアを活性化する。
論文 参考訳(メタデータ) (2023-09-12T02:42:39Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks [45.81957796169348]
バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威だ。
IMBERTは、被害者モデルから得られた勾配または自己注意スコアを用いて、バックドア攻撃に対する自己防衛を行う。
我々の実証研究は、IMBERTが挿入されたトリガーの98.5%を効果的に識別できることを示した。
論文 参考訳(メタデータ) (2023-05-25T22:08:57Z) - Backdoor Attack with Sparse and Invisible Trigger [60.84183404621145]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Few-shot Backdoor Defense Using Shapley Estimation [123.56934991060788]
我々は、深層ニューラルネットワークに対するバックドア攻撃を軽減するために、Shapley Pruningと呼ばれる新しいアプローチを開発した。
ShapPruningは、感染した数少ないニューロン(全ニューロンの1%以下)を特定し、モデルの構造と正確性を保護する。
様々な攻撃やタスクに対して,本手法の有効性とロバスト性を示す実験を行った。
論文 参考訳(メタデータ) (2021-12-30T02:27:03Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。