論文の概要: An Adaptive Black-box Defense against Trojan Attacks (TrojDef)
- arxiv url: http://arxiv.org/abs/2209.01721v1
- Date: Mon, 5 Sep 2022 01:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:55:28.922502
- Title: An Adaptive Black-box Defense against Trojan Attacks (TrojDef)
- Title(参考訳): トロイア攻撃(TrojDef)に対する適応的ブラックボックス防御
- Authors: Guanxiong Liu, Abdallah Khreishah, Fatima Sharadgah, Issa Khalil
- Abstract要約: トロイジャンバックドア(Trojan backdoor)は、ニューラルネットワーク(NN)分類器に対する中毒攻撃である。
我々は,NNの前方通過のみが可能な,より実用的なブラックボックスディフェンスTrojDefを提案する。
TrojDefは最先端の防御を著しく上回り、異なる設定で非常に安定している。
- 参考スコア(独自算出の注目度): 5.880596125802611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trojan backdoor is a poisoning attack against Neural Network (NN) classifiers
in which adversaries try to exploit the (highly desirable) model reuse property
to implant Trojans into model parameters for backdoor breaches through a
poisoned training process. Most of the proposed defenses against Trojan attacks
assume a white-box setup, in which the defender either has access to the inner
state of NN or is able to run back-propagation through it. In this work, we
propose a more practical black-box defense, dubbed TrojDef, which can only run
forward-pass of the NN. TrojDef tries to identify and filter out Trojan inputs
(i.e., inputs augmented with the Trojan trigger) by monitoring the changes in
the prediction confidence when the input is repeatedly perturbed by random
noise. We derive a function based on the prediction outputs which is called the
prediction confidence bound to decide whether the input example is Trojan or
not. The intuition is that Trojan inputs are more stable as the
misclassification only depends on the trigger, while benign inputs will suffer
when augmented with noise due to the perturbation of the classification
features.
Through mathematical analysis, we show that if the attacker is perfect in
injecting the backdoor, the Trojan infected model will be trained to learn the
appropriate prediction confidence bound, which is used to distinguish Trojan
and benign inputs under arbitrary perturbations. However, because the attacker
might not be perfect in injecting the backdoor, we introduce a nonlinear
transform to the prediction confidence bound to improve the detection accuracy
in practical settings. Extensive empirical evaluations show that TrojDef
significantly outperforms the-state-of-the-art defenses and is highly stable
under different settings, even when the classifier architecture, the training
process, or the hyper-parameters change.
- Abstract(参考訳): トロイの木戸(Trojan backdoor)は、ニューラルネットワーク(NN)分類器に対する毒攻撃であり、敵は(非常に望ましい)モデルの再利用性を利用して、毒を盛ったトレーニングプロセスを通じてトロイの木戸をバックドア違反のモデルパラメータに埋め込もうとする。
提案されたトロイの木馬攻撃に対する防御のほとんどがホワイトボックスの設定を前提としており、ディフェンダーはNNの内部状態にアクセスするか、あるいはそれを通してバックプロパゲーションを実行することができる。
本研究では,NNの前方通過のみが可能なTrojDefという,より実用的なブラックボックスディフェンスを提案する。
trojdefは、ランダムノイズによって入力が繰り返し摂動されるときの予測信頼度の変化を監視し、トロイの木馬の入力(すなわちトロイの木馬のトリガーで強化された入力)を識別してフィルタしようとする。
入力例がトロイの木馬であるか否かを判断するための予測信頼度と呼ばれる予測出力に基づいて関数を導出する。
直観的には、誤分類はトリガーのみに依存するため、トロイの木馬の入力はより安定であり、一方良質な入力は分類特徴の摂動によってノイズが増すと苦しむ。
数学的解析により、攻撃者がバックドアを注入するのに完璧であれば、トロイの木馬感染モデルが、任意の摂動下でトロイの木馬と良性の入力を区別するために使用される適切な予測信頼度を学習するために訓練されることが示される。
しかし,攻撃者はバックドアの注入に最適ではないため,予測信頼度に非線形変換を導入し,現実的な設定で検出精度を向上させる。
広範囲にわたる経験的評価は、TrojDefが最先端の防御を著しく上回り、分類器アーキテクチャ、トレーニングプロセス、ハイパーパラメータが変化しても、異なる設定で非常に安定していることを示している。
関連論文リスト
- Quarantine: Sparsity Can Uncover the Trojan Attack Trigger for Free [126.15842954405929]
トロイの木馬攻撃はディープニューラルネットワーク(DNN)を脅かし、ほとんどのサンプルで正常に動作させるが、トリガーを付けた入力に対して操作された結果を生成する。
そこで我々は,まず,クリーンな入力において,ほぼ完全なトロイの木馬の情報のみを保存し,かつ,すでに孤立しているサブネットワークに埋め込まれたトリガを復元する,新しいトロイの木馬ネットワーク検出方式を提案する。
論文 参考訳(メタデータ) (2022-05-24T06:33:31Z) - Trojan Horse Training for Breaking Defenses against Backdoor Attacks in
Deep Learning [7.3007220721129364]
バックドアを含むMLモデルは、トロイの木馬モデルと呼ばれる。
現在のシングルターゲットバックドア攻撃では、ターゲットクラス毎に1つのトリガーが必要である。
我々は、単一のトリガが複数のターゲットクラスに誤分類をもたらすような、より一般的な新しい攻撃を導入する。
論文 参考訳(メタデータ) (2022-03-25T02:54:27Z) - Towards Effective and Robust Neural Trojan Defenses via Input Filtering [67.01177442955522]
ディープ・ニューラルネットワークに対するトロイの木馬の攻撃は危険で残酷だ。
過去数年間、Trojan攻撃は単純なトリガーのみを使用し、1つのクラスのみをターゲットとすることから、多くの高度なトリガーを使い、複数のクラスをターゲットにしている。
ほとんどの防衛手法は依然としてトロイの木馬の引き金や標的クラスについて正確な仮定をしているため、現代のトロイの木馬攻撃によって容易に回避できる。
論文 参考訳(メタデータ) (2022-02-24T15:41:37Z) - CatchBackdoor: Backdoor Detection via Critical Trojan Neural Path Fuzzing [16.44147178061005]
様々なトロイの木馬攻撃によって引き起こされる トロイの木馬の行動は トロイの木馬の道のせいだ
トロイの木馬攻撃に対する検出手法であるCatchBackdoorを提案する。
論文 参考訳(メタデータ) (2021-12-24T13:57:03Z) - A Synergetic Attack against Neural Network Classifiers combining
Backdoor and Adversarial Examples [11.534521802321976]
AdvTrojanと呼ばれる新たなステルス攻撃を実際に開始するために、敵の摂動と毒殺の脆弱性を共同で活用する方法を示します。
AdvTrojan は、(1) 慎重に製作された逆方向の摂動を推論中に入力例に注入し、2) モデルの訓練過程中にトロイの木戸を埋め込んだ場合にのみ起動できるため、ステルス性が高い。
論文 参考訳(メタデータ) (2021-09-03T02:18:57Z) - CLEANN: Accelerated Trojan Shield for Embedded Neural Networks [32.99727805086791]
組込みディープニューラルネットワーク(DNN)アプリケーションに対するトロイの木馬のオンライン緩和を可能にする,最初のエンドツーエンドフレームワークであるCLEANNを提案する。
トロイの木馬攻撃は、訓練中にDNNにバックドアを注入することで動作し、推論中は特定のバックドアトリガーによってトロイの木馬が活性化される。
辞書学習とスパース近似を利用して、良性データの統計的挙動を特徴づけ、トロイの木馬のトリガーを同定する。
論文 参考訳(メタデータ) (2020-09-04T05:29:38Z) - Practical Detection of Trojan Neural Networks: Data-Limited and
Data-Free Cases [87.69818690239627]
本稿では,データスカース方式におけるトロイの木馬ネットワーク(トロイの木馬網)検出の問題点について検討する。
本稿では,データ限定型TrojanNet検出器(TND)を提案する。
さらに,データサンプルにアクセスせずにTrojanNetを検出できるデータフリーTNDを提案する。
論文 参考訳(メタデータ) (2020-07-31T02:00:38Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - An Embarrassingly Simple Approach for Trojan Attack in Deep Neural
Networks [59.42357806777537]
トロイの木馬攻撃は、ハッカーが挿入した隠れトリガーパターンに依存する、デプロイされたディープニューラルネットワーク(DNN)を攻撃することを目的としている。
そこで本研究では,有毒データセットの再学習モデルによりトロイの木馬の挙動を注入する,従来と異なる学習自由攻撃手法を提案する。
提案したTrojanNetには,(1)小さなトリガパターンによって起動し,他の信号に対してサイレントを維持する,(2)モデルに依存しない,ほとんどのDNNに注入可能な,(3)攻撃シナリオを劇的に拡張する,(3)訓練不要のメカニズムは従来のトロイの木馬攻撃方法と比較して大規模なトレーニング作業の削減など,いくつかの優れた特性がある。
論文 参考訳(メタデータ) (2020-06-15T04:58:28Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。