論文の概要: Backdoor Defense with Machine Unlearning
- arxiv url: http://arxiv.org/abs/2201.09538v1
- Date: Mon, 24 Jan 2022 09:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 17:07:49.612869
- Title: Backdoor Defense with Machine Unlearning
- Title(参考訳): マシンアンラーニングによるバックドア防御
- Authors: Yang Liu, Mingyuan Fan, Cen Chen, Ximeng Liu, Zhuo Ma, Li Wang,
Jianfeng Ma
- Abstract要約: 本研究では,マシン・アンラーニングにより,被害者モデルに注入されたバックドアを消去する新しい手法であるBAERASEを提案する。
BAERASEは、4つのベンチマークデータセットに対して、3種類の最先端バックドア攻撃の攻撃成功率を99%下げることができる。
- 参考スコア(独自算出の注目度): 32.968653927933296
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Backdoor injection attack is an emerging threat to the security of neural
networks, however, there still exist limited effective defense methods against
the attack. In this paper, we propose BAERASE, a novel method that can erase
the backdoor injected into the victim model through machine unlearning.
Specifically, BAERASE mainly implements backdoor defense in two key steps.
First, trigger pattern recovery is conducted to extract the trigger patterns
infected by the victim model. Here, the trigger pattern recovery problem is
equivalent to the one of extracting an unknown noise distribution from the
victim model, which can be easily resolved by the entropy maximization based
generative model. Subsequently, BAERASE leverages these recovered trigger
patterns to reverse the backdoor injection procedure and induce the victim
model to erase the polluted memories through a newly designed gradient ascent
based machine unlearning method. Compared with the previous machine unlearning
solutions, the proposed approach gets rid of the reliance on the full access to
training data for retraining and shows higher effectiveness on backdoor erasing
than existing fine-tuning or pruning methods. Moreover, experiments show that
BAERASE can averagely lower the attack success rates of three kinds of
state-of-the-art backdoor attacks by 99\% on four benchmark datasets.
- Abstract(参考訳): バックドアインジェクション攻撃は、ニューラルネットワークのセキュリティに対する新たな脅威であるが、攻撃に対する効果的な防御方法が限られている。
本稿では,機械学習により被害者モデルに注入されたバックドアを消去する手法であるbaeraseを提案する。
特にBAERASEは、主に2つの重要なステップでバックドアディフェンスを実装している。
まず、被害者モデルに感染したトリガーパターンを抽出するためにトリガーパターン回復を行う。
ここでは、トリガーパターン回復問題は、被害者モデルから未知の雑音分布を抽出したものと等価であり、エントロピー最大化に基づく生成モデルにより容易に解決できる。
その後、BAERASEはこれらの回収されたトリガーパターンを利用して、バックドア注入手順を逆転させ、新たに設計されたグラデーションベースのマシンアンラーニング手法により、汚染された記憶を消去する犠牲者モデルを誘導する。
従来のマシンアンラーニングソリューションと比較して,提案手法ではリトレーニングのためのトレーニングデータへの完全アクセスを廃止し,従来の微調整や刈り取りよりもバックドア消去において高い有効性を示す。
さらに、実験の結果、BAERASEは4つのベンチマークデータセットで3種類の最先端バックドア攻撃の攻撃成功率を平均99%下げることができることがわかった。
関連論文リスト
- Backdoor Mitigation by Distance-Driven Detoxification [38.27102305144483]
バックドア攻撃は、攻撃者が有毒なトレーニングデータを使用して予測を操作できるようにすることで、機械学習モデルの完全性を損なう。
本稿では,事前学習モデルにおけるバックドアの解毒を目的とした,訓練後のバックドア防御作業について考察する。
本稿では,バックドアディフェンスを制約付き最適化問題として再定義する革新的なアプローチとして,距離駆動型デトックス化(D3)を提案する。
論文 参考訳(メタデータ) (2024-11-14T16:54:06Z) - Unlearn to Relearn Backdoors: Deferred Backdoor Functionality Attacks on Deep Learning Models [6.937795040660591]
バックドア攻撃の新たなパラダイムとして,Deferred Activated Backdoor Functionality (DABF)を紹介した。
従来の攻撃とは異なり、DABFは当初バックドアを隠蔽し、起動しても良質な出力を生成する。
DABF攻撃は、マシンラーニングモデルのライフサイクルで一般的なプラクティスを利用して、モデル更新と初期デプロイ後の微調整を実行する。
論文 参考訳(メタデータ) (2024-11-10T07:01:53Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Mitigating Backdoor Attacks using Activation-Guided Model Editing [8.00994004466919]
バックドア攻撃は、機械学習モデルの完全性と信頼性を損なう。
本研究では,そのようなバックドア攻撃に対抗するために,機械学習による新たなバックドア緩和手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T13:43:47Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Backdoor Attack against One-Class Sequential Anomaly Detection Models [10.020488631167204]
そこで我々は,新たなバックドア攻撃戦略を提案することによって,深部連続異常検出モデルを提案する。
攻撃アプローチは2つの主要なステップ、トリガー生成とバックドアインジェクションから構成される。
2つの確立された1クラスの異常検出モデルにバックドアを注入することにより,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-15T19:19:54Z) - Exploiting Machine Unlearning for Backdoor Attacks in Deep Learning
System [4.9233610638625604]
マシンアンラーニングに基づく新しいブラックボックスバックドア攻撃を提案する。
攻撃者はまず、毒や緩和データを含む慎重に設計されたサンプルでトレーニングセットを強化し、良心のモデルを訓練する。
そして、攻撃者は、モデルの関連するデータの影響を取り除くために、未学習のサンプルに対するリクエストをポストし、徐々に隠れたバックドアを活性化する。
論文 参考訳(メタデータ) (2023-09-12T02:42:39Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Few-shot Backdoor Defense Using Shapley Estimation [123.56934991060788]
我々は、深層ニューラルネットワークに対するバックドア攻撃を軽減するために、Shapley Pruningと呼ばれる新しいアプローチを開発した。
ShapPruningは、感染した数少ないニューロン(全ニューロンの1%以下)を特定し、モデルの構造と正確性を保護する。
様々な攻撃やタスクに対して,本手法の有効性とロバスト性を示す実験を行った。
論文 参考訳(メタデータ) (2021-12-30T02:27:03Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。