論文の概要: Unified Neural Backdoor Removal with Only Few Clean Samples through Unlearning and Relearning
- arxiv url: http://arxiv.org/abs/2405.14781v1
- Date: Thu, 23 May 2024 16:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 13:46:53.702361
- Title: Unified Neural Backdoor Removal with Only Few Clean Samples through Unlearning and Relearning
- Title(参考訳): 未学習と再学習によるクリーンサンプルの少ない統一型ニューラルバックドア除去
- Authors: Nay Myat Min, Long H. Pham, Jun Sun,
- Abstract要約: ニューラルネットワークのバックドアは、攻撃者がモデル動作を悪意を持って変更できるようにするため、深刻なセキュリティ上の脅威となる。
本研究では,ULRLと呼ばれるバックドアの包括的かつ効果的な除去方法を提案する。
- 参考スコア(独自算出の注目度): 4.623498459985644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of deep neural network models in various security-critical applications has raised significant security concerns, particularly the risk of backdoor attacks. Neural backdoors pose a serious security threat as they allow attackers to maliciously alter model behavior. While many defenses have been explored, existing approaches are often bounded by model-specific constraints, or necessitate complex alterations to the training process, or fall short against diverse backdoor attacks. In this work, we introduce a novel method for comprehensive and effective elimination of backdoors, called ULRL (short for UnLearn and ReLearn for backdoor removal). ULRL requires only a small set of clean samples and works effectively against all kinds of backdoors. It first applies unlearning for identifying suspicious neurons and then targeted neural weight tuning for backdoor mitigation (i.e., by promoting significant weight deviation on the suspicious neurons). Evaluated against 12 different types of backdoors, ULRL is shown to significantly outperform state-of-the-art methods in eliminating backdoors whilst preserving the model utility.
- Abstract(参考訳): さまざまなセキュリティクリティカルなアプリケーションにおけるディープニューラルネットワークモデルの適用は、セキュリティ上の大きな懸念、特にバックドア攻撃のリスクを引き起こしている。
ニューラルネットワークのバックドアは、攻撃者がモデル動作を悪意を持って変更できるようにするため、深刻なセキュリティ上の脅威となる。
多くの防衛策が検討されているが、既存のアプローチはモデル固有の制約によって境界づけられたり、トレーニングプロセスに複雑な変更が必要であったり、さまざまなバックドア攻撃に対して不足していたりすることが多い。
本研究では, バックドアの包括的かつ効果的な除去方法として, ULRL (UnLearn と ReLearn の略) を提案する。
ULRLは少量のクリーンなサンプルしか必要とせず、あらゆる種類のバックドアに対して効果的に機能する。
まず、不審ニューロンの同定にアンラーニングを適用し、その後、バックドア緩和のための神経量調整(すなわち、不審ニューロンに対する重み付けを促進することで)をターゲットにした。
12種類のバックドアに対して評価したところ、ULRLはモデルユーティリティを保ちながらバックドアの除去において、最先端の手法を著しく上回っていることがわかった。
関連論文リスト
- Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Reconstructive Neuron Pruning for Backdoor Defense [96.21882565556072]
本稿では, バックドアニューロンの露出とプルーンの抑制を目的とした, emphReconstructive Neuron Pruning (RNP) という新しい防御法を提案する。
RNPでは、アンラーニングはニューロンレベルで行われ、リカバリはフィルタレベルで行われ、非対称再構成学習手順を形成する。
このような非対称なプロセスは、少数のクリーンサンプルだけが、広範囲の攻撃によって移植されたバックドアニューロンを効果的に露出し、刺激することができることを示す。
論文 参考訳(メタデータ) (2023-05-24T08:29:30Z) - Enhancing Fine-Tuning Based Backdoor Defense with Sharpness-Aware
Minimization [27.964431092997504]
良性データに基づく微調整は、バックドアモデルにおけるバックドア効果を消去するための自然な防御である。
本研究では, バックドア関連ニューロンのノルムを小さくするために, 微調整によるシャープネス認識最小化を取り入れた新しいバックドア防御パラダイムFTSAMを提案する。
論文 参考訳(メタデータ) (2023-04-24T05:13:52Z) - FreeEagle: Detecting Complex Neural Trojans in Data-Free Cases [50.065022493142116]
バックドア攻撃とも呼ばれるディープニューラルネットワークに対するトロイの木馬攻撃は、人工知能に対する典型的な脅威である。
FreeEagleは、複雑なバックドア攻撃を効果的に検出できる最初のデータフリーバックドア検出方法である。
論文 参考訳(メタデータ) (2023-02-28T11:31:29Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Verifying Neural Networks Against Backdoor Attacks [7.5033553032683855]
特定のニューラルネットワークが一定の成功率でバックドアのないかどうかを検証するためのアプローチを提案する。
実験結果から,バックドアの欠如やバックドアのトリガの発生を効果的に検証できることが示唆された。
論文 参考訳(メタデータ) (2022-05-14T07:25:54Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。