論文の概要: Universal Soldier: Using Universal Adversarial Perturbations for
Detecting Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2302.00747v3
- Date: Thu, 24 Aug 2023 13:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 18:33:37.113407
- Title: Universal Soldier: Using Universal Adversarial Perturbations for
Detecting Backdoor Attacks
- Title(参考訳): universal soldier: バックドア攻撃を検出するためにuniversal adversarial perturbationを使用する
- Authors: Xiaoyun Xu, Oguzhan Ersoy, Stjepan Picek
- Abstract要約: ディープラーニングモデルは、バックドアデータによるトレーニングや、内部ネットワークパラメータの変更によって悪用される。
引き金について事前に知ることなく、クリーンモデルとバックドアモデルとを区別することは困難である。
UAPによるバックドア検出(USB)とリバースエンジニアリング潜在的なバックドアトリガのためのUniversal Soldierという新しい手法を提案する。
- 参考スコア(独自算出の注目度): 15.917794562400449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models achieve excellent performance in numerous machine
learning tasks. Yet, they suffer from security-related issues such as
adversarial examples and poisoning (backdoor) attacks. A deep learning model
may be poisoned by training with backdoored data or by modifying inner network
parameters. Then, a backdoored model performs as expected when receiving a
clean input, but it misclassifies when receiving a backdoored input stamped
with a pre-designed pattern called "trigger". Unfortunately, it is difficult to
distinguish between clean and backdoored models without prior knowledge of the
trigger. This paper proposes a backdoor detection method by utilizing a special
type of adversarial attack, universal adversarial perturbation (UAP), and its
similarities with a backdoor trigger. We observe an intuitive phenomenon: UAPs
generated from backdoored models need fewer perturbations to mislead the model
than UAPs from clean models. UAPs of backdoored models tend to exploit the
shortcut from all classes to the target class, built by the backdoor trigger.
We propose a novel method called Universal Soldier for Backdoor detection (USB)
and reverse engineering potential backdoor triggers via UAPs. Experiments on
345 models trained on several datasets show that USB effectively detects the
injected backdoor and provides comparable or better results than
state-of-the-art methods.
- Abstract(参考訳): ディープラーニングモデルは、多くの機械学習タスクで優れたパフォーマンスを達成します。
しかし、敵の例や毒殺(バックドア)攻撃などセキュリティ関連の問題に苦しんでいる。
ディープラーニングモデルは、バックドアデータによるトレーニングや、内部ネットワークパラメータの変更によって悪用される。
そして、クリーンな入力を受けると、バックドアモデルが期待通りに実行されるが、「トリガー」と呼ばれる予め設計されたパターンで押されたバックドア入力を受けると誤分類される。
残念ながら、トリガーの事前知識なしでは、クリーンモデルとバックドアモデルの区別が難しい。
本稿では,特定のタイプの攻撃,uap(universal adversarial perturbation)とバックドアトリガーとの類似性を利用したバックドア検出手法を提案する。
バックドアモデルから生成されたUAPは、クリーンモデルからのUAPよりもモデルを誤解させるのに、より少ない摂動を必要とする。
バックドアモデルのUAPは、バックドアトリガによって構築されたすべてのクラスからターゲットクラスへのショートカットを利用する傾向がある。
UAPによるバックドア検出(USB)とリバースエンジニアリング潜在的なバックドアトリガのためのUniversal Soldierという新しい手法を提案する。
複数のデータセットでトレーニングされた345モデルの実験では、usbが注入されたバックドアを効果的に検出し、最先端の方法と同等あるいは優れた結果を提供することが示された。
関連論文リスト
- Model Pairing Using Embedding Translation for Backdoor Attack Detection
on Open-Set Classification Tasks [51.78558228584093]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
両モデルがバックドアされている場合でも,バックドアが検出可能であることを示す。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - BaDExpert: Extracting Backdoor Functionality for Accurate Backdoor Input
Detection [42.021282816470794]
我々は,Deep Neural Networks(DNN)に対するバックドア攻撃に対する新しい防御法を提案する。
私たちの防衛は、モデルの生成方法とは独立して機能する開発後防衛のカテゴリに分類されます。
モデル推論におけるバックドア入力をフィルタリングする高精度なバックドア入力検出装置の実現可能性を示す。
論文 参考訳(メタデータ) (2023-08-23T21:47:06Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - BAAAN: Backdoor Attacks Against Autoencoder and GAN-Based Machine
Learning Models [21.06679566096713]
我々は、マシンラーニングモデル、すなわちバックドア攻撃に対する最も深刻な攻撃の1つを、オートエンコーダとGANの両方に対して探索する。
バックドアアタック(英語: backdoor attack)とは、敵が秘密のトリガーによってのみ起動できるターゲットモデルに隠れたバックドアを実装する訓練時間アタックである。
バックドア攻撃の適用性をオートエンコーダやGANベースのモデルに拡張する。
論文 参考訳(メタデータ) (2020-10-06T20:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。