論文の概要: PerD: Perturbation Sensitivity-based Neural Trojan Detection Framework
on NLP Applications
- arxiv url: http://arxiv.org/abs/2208.04943v1
- Date: Mon, 8 Aug 2022 22:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 12:37:05.774455
- Title: PerD: Perturbation Sensitivity-based Neural Trojan Detection Framework
on NLP Applications
- Title(参考訳): PerD: NLPアプリケーションを用いた摂動感度に基づくニューラルトロイジャン検出フレームワーク
- Authors: Diego Garcia-soto, Huili Chen, and Farinaz Koushanfar
- Abstract要約: トロイの木馬の攻撃は被害者にバックドアを埋め込み、入力空間のトリガーによって起動される。
本稿では,入力に特別な摂動を導入する際に,モデル出力のずれを解析し,モデルレベルのトロイの木馬検出フレームワークを提案する。
提案手法の有効性を,TrojAIが作成したNLPモデルのデータセットとTrojaned NLPモデルの公開データセットに示す。
- 参考スコア(独自算出の注目度): 21.854581570954075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Networks (DNNs) have been shown to be susceptible to Trojan
attacks. Neural Trojan is a type of targeted poisoning attack that embeds the
backdoor into the victim and is activated by the trigger in the input space.
The increasing deployment of DNNs in critical systems and the surge of
outsourcing DNN training (which makes Trojan attack easier) makes the detection
of Trojan attacks necessary. While Neural Trojan detection has been studied in
the image domain, there is a lack of solutions in the NLP domain. In this
paper, we propose a model-level Trojan detection framework by analyzing the
deviation of the model output when we introduce a specially crafted
perturbation to the input. Particularly, we extract the model's responses to
perturbed inputs as the `signature' of the model and train a meta-classifier to
determine if a model is Trojaned based on its signature. We demonstrate the
effectiveness of our proposed method on both a dataset of NLP models we create
and a public dataset of Trojaned NLP models from TrojAI. Furthermore, we
propose a lightweight variant of our detection method that reduces the
detection time while preserving the detection rates.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)はトロイの木馬の攻撃を受けやすいことが示されている。
ニューラルトロイの木馬(Neural Trojan)は、被害者にバックドアを埋め込む標的の毒物攻撃の一種で、入力空間のトリガーによって活性化される。
重要なシステムへのDNNの展開の増加と、DNNトレーニングのアウトソーシング(トロイア攻撃を容易にする)の急増により、トロイア攻撃の検出が必要になった。
画像領域では神経トロイの木馬の検出が研究されているが、nlp領域では解が不足している。
本稿では,入力に特別な摂動を導入する際に,モデル出力のずれを分析し,モデルレベルのトロイの木馬検出フレームワークを提案する。
特に,モデルの「シグナチャ」として摂動入力に対するモデルの応答を抽出し,そのシグネチャに基づいてモデルがトロイの木であるかどうかを判断するためにメタ分類器を訓練する。
提案手法の有効性を,TrojAIが作成したNLPモデルのデータセットとTrojaned NLPモデルの公開データセットに示す。
さらに,検出速度を保ちながら検出時間を短縮する軽量な検出手法を提案する。
関連論文リスト
- FreeEagle: Detecting Complex Neural Trojans in Data-Free Cases [50.065022493142116]
バックドア攻撃とも呼ばれるディープニューラルネットワークに対するトロイの木馬攻撃は、人工知能に対する典型的な脅威である。
FreeEagleは、複雑なバックドア攻撃を効果的に検出できる最初のデータフリーバックドア検出方法である。
論文 参考訳(メタデータ) (2023-02-28T11:31:29Z) - An Adaptive Black-box Backdoor Detection Method for Deep Neural Networks [25.593824693347113]
ディープニューラルネットワーク(DNN)は、医療診断や自律運転など、さまざまな分野において前例のないパフォーマンスを示している。
それらは、ステルスシートリガーによって制御され、活性化されるニューラルトロイの木馬攻撃(NT)に対して脆弱である。
本稿では,事前訓練したトロイの木馬が展開前にトロイの木馬に検出されたかどうかを検査するロバストで適応的なトロイの木馬検出手法を提案する。
論文 参考訳(メタデータ) (2022-04-08T23:41:19Z) - Online Defense of Trojaned Models using Misattributions [18.16378666013071]
本稿では,推論時におけるディープニューラルネットワーク上のニューラルトロイの木馬検出手法を提案する。
MNIST, Fashion MNIST, German Traffic Sign Recognition Benchmark で訓練されたモデルを含む,いくつかのベンチマークに対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-03-29T19:53:44Z) - TAD: Trigger Approximation based Black-box Trojan Detection for AI [16.741385045881113]
ディープニューラルネットワーク(DNN)は、医療診断や自律運転など、さまざまな分野において前例のないパフォーマンスを示している。
トリガーによって制御され、活性化されるトロイの木馬攻撃(NT)に対して脆弱である。
我々は、事前訓練されたAIモデルがトロイの木馬に配備される前に検査されたかどうかを検査するロバストなトロイの木馬検出手法を提案する。
論文 参考訳(メタデータ) (2021-02-03T00:49:50Z) - Detecting Trojaned DNNs Using Counterfactual Attributions [15.988574580713328]
このようなモデルは通常、典型的な入力で振る舞うが、トロイの木馬のトリガーで入力の特定の誤った予測を生成する。
我々のアプローチは、トリガーの動作がトリガーパターンで活性化される少数のゴーストニューロンに依存するという新しい観察に基づいている。
我々はこの情報をディープセットエンコーダを用いてトロイの木馬検出に利用する。
論文 参考訳(メタデータ) (2020-12-03T21:21:33Z) - Practical Detection of Trojan Neural Networks: Data-Limited and
Data-Free Cases [87.69818690239627]
本稿では,データスカース方式におけるトロイの木馬ネットワーク(トロイの木馬網)検出の問題点について検討する。
本稿では,データ限定型TrojanNet検出器(TND)を提案する。
さらに,データサンプルにアクセスせずにTrojanNetを検出できるデータフリーTNDを提案する。
論文 参考訳(メタデータ) (2020-07-31T02:00:38Z) - Cassandra: Detecting Trojaned Networks from Adversarial Perturbations [92.43879594465422]
多くの場合、事前トレーニングされたモデルは、トロイの木馬の振る舞いをモデルに挿入するためにトレーニングパイプラインを中断したかもしれないベンダーから派生している。
本稿では,事前学習したモデルがトロイの木馬か良馬かを検証する手法を提案する。
本手法は,ニューラルネットワークの指紋を,ネットワーク勾配から学習した逆方向の摂動の形でキャプチャする。
論文 参考訳(メタデータ) (2020-07-28T19:00:40Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - An Embarrassingly Simple Approach for Trojan Attack in Deep Neural
Networks [59.42357806777537]
トロイの木馬攻撃は、ハッカーが挿入した隠れトリガーパターンに依存する、デプロイされたディープニューラルネットワーク(DNN)を攻撃することを目的としている。
そこで本研究では,有毒データセットの再学習モデルによりトロイの木馬の挙動を注入する,従来と異なる学習自由攻撃手法を提案する。
提案したTrojanNetには,(1)小さなトリガパターンによって起動し,他の信号に対してサイレントを維持する,(2)モデルに依存しない,ほとんどのDNNに注入可能な,(3)攻撃シナリオを劇的に拡張する,(3)訓練不要のメカニズムは従来のトロイの木馬攻撃方法と比較して大規模なトレーニング作業の削減など,いくつかの優れた特性がある。
論文 参考訳(メタデータ) (2020-06-15T04:58:28Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。