論文の概要: Towards Effective and Robust Neural Trojan Defenses via Input Filtering
- arxiv url: http://arxiv.org/abs/2202.12154v1
- Date: Thu, 24 Feb 2022 15:41:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 21:37:22.381010
- Title: Towards Effective and Robust Neural Trojan Defenses via Input Filtering
- Title(参考訳): 入力フィルタリングによる効果的でロバストなニューラルトロイジャンディフェンスを目指して
- Authors: Kien Do, Haripriya Harikumar, Hung Le, Dung Nguyen, Truyen Tran, Santu
Rana, Dang Nguyen, Willy Susilo, Svetha Venkatesh
- Abstract要約: ディープ・ニューラルネットワークに対するトロイの木馬の攻撃は危険で残酷だ。
過去数年間、Trojan攻撃は単純なトリガーのみを使用し、1つのクラスのみをターゲットとすることから、多くの高度なトリガーを使い、複数のクラスをターゲットにしている。
ほとんどの防衛手法は依然としてトロイの木馬の引き金や標的クラスについて正確な仮定をしているため、現代のトロイの木馬攻撃によって容易に回避できる。
- 参考スコア(独自算出の注目度): 67.01177442955522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trojan attacks on deep neural networks are both dangerous and surreptitious.
Over the past few years, Trojan attacks have advanced from using only a simple
trigger and targeting only one class to using many sophisticated triggers and
targeting multiple classes. However, Trojan defenses have not caught up with
this development. Most defense methods still make out-of-date assumptions about
Trojan triggers and target classes, thus, can be easily circumvented by modern
Trojan attacks. In this paper, we advocate general defenses that are effective
and robust against various Trojan attacks and propose two novel "filtering"
defenses with these characteristics called Variational Input Filtering (VIF)
and Adversarial Input Filtering (AIF). VIF and AIF leverage variational
inference and adversarial training respectively to purify all potential Trojan
triggers in the input at run time without making any assumption about their
numbers and forms. We further extend "filtering" to
"filtering-then-contrasting" - a new defense mechanism that helps avoid the
drop in classification accuracy on clean data caused by filtering. Extensive
experimental results show that our proposed defenses significantly outperform 4
well-known defenses in mitigating 5 different Trojan attacks including the two
state-of-the-art which defeat many strong defenses.
- Abstract(参考訳): ディープニューラルネットワークに対するトロイの木馬攻撃は、危険かつ過酷である。
過去数年間、Trojan攻撃は単純なトリガーのみを使用し、1つのクラスのみをターゲットとすることから、多くの高度なトリガーを使い、複数のクラスをターゲットにしている。
しかし、トロイアの防衛はこの発展に追いついていない。
ほとんどの防衛手法は現在でもトロイの木馬のトリガーや標的クラスに関する最新の仮定を定めているため、現代のトロイの木馬の攻撃によって容易に回避できる。
本稿では,様々なトロイの木馬攻撃に対して効果的かつ堅牢な一般的な防御を提唱し,これらの特徴を持つ2つの新しい「フィルタリング」防衛法を提案し,その特徴を逆入力フィルタリング(VIF)と逆入力フィルタリング(AIF)と呼ぶ。
VIF と AIF は、それぞれ変分推論と敵対的訓練を活用して、その数や形式を仮定することなく、実行時に入力中の全てのトロイの木馬トリガーを浄化する。
さらに、フィルタリングによるクリーンなデータに対する分類精度の低下を回避するため、新しい防御機構である「フィルタリング」を「フィルタリング」に拡張する。
以上の結果から,提案した防衛は,多くの強力な防衛を破る2つの最先端技術を含む5つの異なるトロイア攻撃を緩和する上で,よく知られた4つの防衛を著しく上回った。
関連論文リスト
- TrojDiff: Trojan Attacks on Diffusion Models with Diverse Targets [74.12197473591128]
拡散モデルに対する効果的なトロイ・アタック(TrojDiff)を提案する。
特に, トロイの木馬拡散過程における新たな遷移を設計し, 対立対象をバイアス付きガウス分布に拡散させる。
そこで,TrojDiffは,異なる種類のトリガを用いて,異なる攻撃対象下で常に高い攻撃性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-10T08:01:23Z) - An Adaptive Black-box Defense against Trojan Attacks (TrojDef) [5.880596125802611]
トロイジャンバックドア(Trojan backdoor)は、ニューラルネットワーク(NN)分類器に対する中毒攻撃である。
我々は,NNの前方通過のみが可能な,より実用的なブラックボックスディフェンスTrojDefを提案する。
TrojDefは最先端の防御を著しく上回り、異なる設定で非常に安定している。
論文 参考訳(メタデータ) (2022-09-05T01:54:44Z) - Defense Against Multi-target Trojan Attacks [31.54111353219381]
トロイアの攻撃は最も防御が難しい。
Badnetのような攻撃は、複数のターゲットクラスにTrojanのバックドアを導入し、画像のどこにでもトリガーを配置できるようにする。
この攻撃を防御するために、まず、複数の画像を用いて様々な潜在的なトリガを復元するトリガーリバースエンジニアリング機構を導入する。
次に, 回収したトリガの伝達性を測定し, 検出機構を提案する。
論文 参考訳(メタデータ) (2022-07-08T13:29:13Z) - Quarantine: Sparsity Can Uncover the Trojan Attack Trigger for Free [126.15842954405929]
トロイの木馬攻撃はディープニューラルネットワーク(DNN)を脅かし、ほとんどのサンプルで正常に動作させるが、トリガーを付けた入力に対して操作された結果を生成する。
そこで我々は,まず,クリーンな入力において,ほぼ完全なトロイの木馬の情報のみを保存し,かつ,すでに孤立しているサブネットワークに埋め込まれたトリガを復元する,新しいトロイの木馬ネットワーク検出方式を提案する。
論文 参考訳(メタデータ) (2022-05-24T06:33:31Z) - Trojan Horse Training for Breaking Defenses against Backdoor Attacks in
Deep Learning [7.3007220721129364]
バックドアを含むMLモデルは、トロイの木馬モデルと呼ばれる。
現在のシングルターゲットバックドア攻撃では、ターゲットクラス毎に1つのトリガーが必要である。
我々は、単一のトリガが複数のターゲットクラスに誤分類をもたらすような、より一般的な新しい攻撃を導入する。
論文 参考訳(メタデータ) (2022-03-25T02:54:27Z) - Semantic Host-free Trojan Attack [54.25471812198403]
本稿では,意味空間に固定されているが,必ずしも画素空間に固定されていないトリガーを用いた新規なホストフリートロイア攻撃を提案する。
クリーンな入力イメージをホストとして使用して小さな無意味なトリガーパターンを担っている既存のトロイの木馬攻撃とは対照的に、我々の攻撃はトリガーを意味論的に意味のあるオブジェクトクラスに属するフルサイズのイメージとみなす。
論文 参考訳(メタデータ) (2021-10-26T05:01:22Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - An Embarrassingly Simple Approach for Trojan Attack in Deep Neural
Networks [59.42357806777537]
トロイの木馬攻撃は、ハッカーが挿入した隠れトリガーパターンに依存する、デプロイされたディープニューラルネットワーク(DNN)を攻撃することを目的としている。
そこで本研究では,有毒データセットの再学習モデルによりトロイの木馬の挙動を注入する,従来と異なる学習自由攻撃手法を提案する。
提案したTrojanNetには,(1)小さなトリガパターンによって起動し,他の信号に対してサイレントを維持する,(2)モデルに依存しない,ほとんどのDNNに注入可能な,(3)攻撃シナリオを劇的に拡張する,(3)訓練不要のメカニズムは従来のトロイの木馬攻撃方法と比較して大規模なトレーニング作業の削減など,いくつかの優れた特性がある。
論文 参考訳(メタデータ) (2020-06-15T04:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。