論文の概要: Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models
- arxiv url: http://arxiv.org/abs/2410.19427v1
- Date: Fri, 25 Oct 2024 09:36:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:36:47.004184
- Title: Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models
- Title(参考訳): Expose before you Defend: Unified and Enhancing Backdoor Defenses via Exposed Models
- Authors: Yige Li, Hanxun Huang, Jiaming Zhang, Xingjun Ma, Yu-Gang Jiang,
- Abstract要約: 本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
- 参考スコア(独自算出の注目度): 68.40324627475499
- License:
- Abstract: Backdoor attacks covertly implant triggers into deep neural networks (DNNs) by poisoning a small portion of the training data with pre-designed backdoor triggers. This vulnerability is exacerbated in the era of large models, where extensive (pre-)training on web-crawled datasets is susceptible to compromise. In this paper, we introduce a novel two-step defense framework named Expose Before You Defend (EBYD). EBYD unifies existing backdoor defense methods into a comprehensive defense system with enhanced performance. Specifically, EBYD first exposes the backdoor functionality in the backdoored model through a model preprocessing step called backdoor exposure, and then applies detection and removal methods to the exposed model to identify and eliminate the backdoor features. In the first step of backdoor exposure, we propose a novel technique called Clean Unlearning (CUL), which proactively unlearns clean features from the backdoored model to reveal the hidden backdoor features. We also explore various model editing/modification techniques for backdoor exposure, including fine-tuning, model sparsification, and weight perturbation. Using EBYD, we conduct extensive experiments on 10 image attacks and 6 text attacks across 2 vision datasets (CIFAR-10 and an ImageNet subset) and 4 language datasets (SST-2, IMDB, Twitter, and AG's News). The results demonstrate the importance of backdoor exposure for backdoor defense, showing that the exposed models can significantly benefit a range of downstream defense tasks, including backdoor label detection, backdoor trigger recovery, backdoor model detection, and backdoor removal. We hope our work could inspire more research in developing advanced defense frameworks with exposed models. Our code is available at: https://github.com/bboylyg/Expose-Before-You-Defend.
- Abstract(参考訳): バックドア攻撃は、事前設計されたバックドアトリガーでトレーニングデータの一部を汚染することにより、ディープニューラルネットワーク(DNN)に秘密裏にトリガーを注入する。
この脆弱性は、Webcrawledデータセットの広範な(事前の)トレーニングが妥協に影響を受けやすい、大規模なモデルの時代において悪化している。
本稿では,EBYD(Expose Before You Defend)という新しい2段階防衛フレームワークを提案する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
具体的には、EBYDはまず、バックドア露光と呼ばれるモデル前処理ステップを通じてバックドアモデルのバックドア機能を露光し、その後、露光モデルに検出および除去手法を適用してバックドアの特徴を特定し、除去する。
バックドア露光の第一段階として,隠れたバックドアの特徴を明らかにするために,バックドアモデルからクリーンな特徴を積極的に解放する「クリーン・アンラーニング(CUL)」という新しい手法を提案する。
また,細調整,モデルスペーシング,重量摂動など,バックドア露光のための様々なモデル編集・修正手法についても検討する。
EBYDを用いて、2つのビジョンデータセット(CIFAR-10とImageNetサブセット)と4つの言語データセット(SST-2、IMDB、Twitter、AG's News)にわたる10のイメージアタックと6つのテキストアタックに関する広範な実験を行う。
その結果, バックドア・ディフェンスにおけるバックドア・ディフェンスの重要性が示され, バックドア・ラベル検出, バックドア・トリガー・リカバリ, バックドア・モデル・ディフェンス, バックドア・モデル・ディフェンス, バックドア・ディフェンス・ディフェンスなど, 下流のディフェンス・タスクに有益であることが示唆された。
私たちの研究が、露出したモデルで高度な防衛フレームワークを開発する上で、より多くの研究を刺激してくれることを期待しています。
私たちのコードは、https://github.com/bboylyg/Expose-Before-You-Defend.comで利用可能です。
関連論文リスト
- BeniFul: Backdoor Defense via Middle Feature Analysis for Deep Neural Networks [0.6872939325656702]
提案手法は,グレーボックスのバックドア入力検出とホワイトボックスのバックドア除去という2つの部分から構成される。
CIFAR-10とTiny ImageNetの5つの攻撃に対する実験結果から、我々のBeniFulは、バックドア入力検出とバックドア除去において優れた防御能力を示すことが示された。
論文 参考訳(メタデータ) (2024-10-15T13:14:55Z) - Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor [0.24335447922683692]
基盤となるモデルアーキテクチャ内に隠蔽する新しいタイプのバックドアアタックを導入します。
モデルアーキテクチャレイヤのアドオンモジュールは、入力トリガトークンの存在を検出し、レイヤの重みを変更することができる。
我々は,5つの大言語データセットの2つのモデルアーキテクチャ設定を用いて,攻撃方法を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-09-03T14:54:16Z) - Flatness-aware Sequential Learning Generates Resilient Backdoors [7.969181278996343]
近年、バックドア攻撃は機械学習モデルのセキュリティに対する新たな脅威となっている。
本稿では,連続学習(CL)技術を活用して,バックドアのCFに対処する。
レジリエントなバックドアを生成可能な,SBL(Sequential Backdoor Learning)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-20T03:30:05Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - BaDExpert: Extracting Backdoor Functionality for Accurate Backdoor Input
Detection [42.021282816470794]
我々は,Deep Neural Networks(DNN)に対するバックドア攻撃に対する新しい防御法を提案する。
私たちの防衛は、モデルの生成方法とは独立して機能する開発後防衛のカテゴリに分類されます。
モデル推論におけるバックドア入力をフィルタリングする高精度なバックドア入力検出装置の実現可能性を示す。
論文 参考訳(メタデータ) (2023-08-23T21:47:06Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Reflection Backdoor: A Natural Backdoor Attack on Deep Neural Networks [46.99548490594115]
バックドア攻撃は、バックドアパターンをトレーニングデータのごく一部に注入することにより、バックドアを被害者モデルにインストールする。
被害者モデルにバックドアとして反射を植え付けるための反射バックドア(Refool)を提案する。
Refoolは最先端のDNNを高い成功率で攻撃することができる。
論文 参考訳(メタデータ) (2020-07-05T13:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。