論文の概要: T-Miner: A Generative Approach to Defend Against Trojan Attacks on
DNN-based Text Classification
- arxiv url: http://arxiv.org/abs/2103.04264v1
- Date: Sun, 7 Mar 2021 04:43:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:14:53.591403
- Title: T-Miner: A Generative Approach to Defend Against Trojan Attacks on
DNN-based Text Classification
- Title(参考訳): T-Miner: DNNテキスト分類におけるトロイの木馬攻撃対策のためのジェネレーティブアプローチ
- Authors: Ahmadreza Azizi, Ibrahim Asadullah Tahmid, Asim Waheed, Neal
Mangaokar, Jiameng Pu, Mobin Javed, Chandan K. Reddy, Bimal Viswanath
- Abstract要約: トロイの木馬やバックドア攻撃はディープニューラルネットワーク(DNN)分類システムに脅威をもたらす。
我々は,このような攻撃に対する防御フレームワークであるtrojan-minerを提案する。
T-Minerはトロイの木馬とクリーンモデルを98.75%の全体的な精度で検出し、クリーンモデルの偽陽性を低く抑える。
- 参考スコア(独自算出の注目度): 8.270668390362772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Network (DNN) classifiers are known to be vulnerable to Trojan or
backdoor attacks, where the classifier is manipulated such that it
misclassifies any input containing an attacker-determined Trojan trigger.
Backdoors compromise a model's integrity, thereby posing a severe threat to the
landscape of DNN-based classification. While multiple defenses against such
attacks exist for classifiers in the image domain, there have been limited
efforts to protect classifiers in the text domain.
We present Trojan-Miner (T-Miner) -- a defense framework for Trojan attacks
on DNN-based text classifiers. T-Miner employs a sequence-to-sequence
(seq-2-seq) generative model that probes the suspicious classifier and learns
to produce text sequences that are likely to contain the Trojan trigger.
T-Miner then analyzes the text produced by the generative model to determine if
they contain trigger phrases, and correspondingly, whether the tested
classifier has a backdoor. T-Miner requires no access to the training dataset
or clean inputs of the suspicious classifier, and instead uses synthetically
crafted "nonsensical" text inputs to train the generative model. We extensively
evaluate T-Miner on 1100 model instances spanning 3 ubiquitous DNN model
architectures, 5 different classification tasks, and a variety of trigger
phrases. We show that T-Miner detects Trojan and clean models with a 98.75%
overall accuracy, while achieving low false positives on clean models. We also
show that T-Miner is robust against a variety of targeted, advanced attacks
from an adaptive attacker.
- Abstract(参考訳): ディープニューラルネットワーク(dnn)分類器はトロイの木馬やバックドア攻撃に対して脆弱であることが知られており、分類器は攻撃者によって決定されたトロイの木馬トリガーを含む入力を誤分類するように操作される。
バックドアはモデルの整合性を損なうため、DNNベースの分類の状況に深刻な脅威をもたらす。
このような攻撃に対する複数の防御は画像ドメインの分類器に対して存在するが、テキストドメインの分類器を保護する努力は限られている。
我々は、DNNベースのテキスト分類器に対するトロイの木馬攻撃のための防御フレームワークであるTrojan-Miner(T-Miner)を紹介する。
T-Minerはシークエンス・ツー・シークエンス(seq-2-seq)生成モデルを用いて、疑わしい分類器を探索し、トロイの木馬トリガーを含む可能性が高いテキストシーケンスを生成する。
T-Minerは、生成モデルによって生成されたテキストを分析し、トリガーフレーズを含むかどうかを決定し、テストされた分類器にバックドアがあるかどうかを判断します。
T-Minerは、不審な分類器のトレーニングデータセットやクリーンな入力へのアクセスを必要とせず、代わりに合成された「非意味」テキスト入力を使用して生成モデルをトレーニングする。
3つのユビキタスDNNモデルアーキテクチャ、5つの分類タスク、さまざまなトリガーフレーズからなる1100モデルインスタンスのT-Minerを幅広く評価します。
T-Minerがトロイの木馬とクリーンモデルを98.75%の全体的な精度で検出し、クリーンモデルの偽陽性を低く抑えることを示した。
また、T-Minerはアダプティブアタッカーからの様々な標的の高度な攻撃に対して堅牢であることも示しています。
関連論文リスト
- MDTD: A Multi Domain Trojan Detector for Deep Neural Networks [2.4651521935081364]
ディープニューラルネットワーク(DNN)を使用する機械学習モデルは、バックドア攻撃に対して脆弱である。
テスト時にトロイジャントリガを含む入力を検出するDNN用マルチドメイントロイジャン検出器 MDTD を提案する。
対戦相手が堅牢なDNNを訓練し、決定境界からベニグン(トロイジャン)の入力距離を減少させる適応攻撃に対するMDTDの評価を行った。
論文 参考訳(メタデータ) (2023-08-30T00:03:03Z) - Quarantine: Sparsity Can Uncover the Trojan Attack Trigger for Free [126.15842954405929]
トロイの木馬攻撃はディープニューラルネットワーク(DNN)を脅かし、ほとんどのサンプルで正常に動作させるが、トリガーを付けた入力に対して操作された結果を生成する。
そこで我々は,まず,クリーンな入力において,ほぼ完全なトロイの木馬の情報のみを保存し,かつ,すでに孤立しているサブネットワークに埋め込まれたトリガを復元する,新しいトロイの木馬ネットワーク検出方式を提案する。
論文 参考訳(メタデータ) (2022-05-24T06:33:31Z) - Trojan Horse Training for Breaking Defenses against Backdoor Attacks in
Deep Learning [7.3007220721129364]
バックドアを含むMLモデルは、トロイの木馬モデルと呼ばれる。
現在のシングルターゲットバックドア攻撃では、ターゲットクラス毎に1つのトリガーが必要である。
我々は、単一のトリガが複数のターゲットクラスに誤分類をもたらすような、より一般的な新しい攻撃を導入する。
論文 参考訳(メタデータ) (2022-03-25T02:54:27Z) - Practical Detection of Trojan Neural Networks: Data-Limited and
Data-Free Cases [87.69818690239627]
本稿では,データスカース方式におけるトロイの木馬ネットワーク(トロイの木馬網)検出の問題点について検討する。
本稿では,データ限定型TrojanNet検出器(TND)を提案する。
さらに,データサンプルにアクセスせずにTrojanNetを検出できるデータフリーTNDを提案する。
論文 参考訳(メタデータ) (2020-07-31T02:00:38Z) - Cassandra: Detecting Trojaned Networks from Adversarial Perturbations [92.43879594465422]
多くの場合、事前トレーニングされたモデルは、トロイの木馬の振る舞いをモデルに挿入するためにトレーニングパイプラインを中断したかもしれないベンダーから派生している。
本稿では,事前学習したモデルがトロイの木馬か良馬かを検証する手法を提案する。
本手法は,ニューラルネットワークの指紋を,ネットワーク勾配から学習した逆方向の摂動の形でキャプチャする。
論文 参考訳(メタデータ) (2020-07-28T19:00:40Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - An Embarrassingly Simple Approach for Trojan Attack in Deep Neural
Networks [59.42357806777537]
トロイの木馬攻撃は、ハッカーが挿入した隠れトリガーパターンに依存する、デプロイされたディープニューラルネットワーク(DNN)を攻撃することを目的としている。
そこで本研究では,有毒データセットの再学習モデルによりトロイの木馬の挙動を注入する,従来と異なる学習自由攻撃手法を提案する。
提案したTrojanNetには,(1)小さなトリガパターンによって起動し,他の信号に対してサイレントを維持する,(2)モデルに依存しない,ほとんどのDNNに注入可能な,(3)攻撃シナリオを劇的に拡張する,(3)訓練不要のメカニズムは従来のトロイの木馬攻撃方法と比較して大規模なトレーニング作業の削減など,いくつかの優れた特性がある。
論文 参考訳(メタデータ) (2020-06-15T04:58:28Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。