論文の概要: Mitigating backdoor attacks in LSTM-based Text Classification Systems by
Backdoor Keyword Identification
- arxiv url: http://arxiv.org/abs/2007.12070v3
- Date: Mon, 15 Mar 2021 03:45:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 13:28:20.742473
- Title: Mitigating backdoor attacks in LSTM-based Text Classification Systems by
Backdoor Keyword Identification
- Title(参考訳): LSTMテキスト分類システムにおけるバックドア攻撃のバックドアキーワード同定による軽減
- Authors: Chuanshuai Chen, Jiazhu Dai
- Abstract要約: テキスト分類システムでは、モデルに挿入されたバックドアがスパムや悪意のある音声を検知から逃れる可能性がある。
本稿では,内LSTMニューロンの変化を分析することによって,バックドア攻撃を緩和するためのバックドアキーワード識別(BKI)と呼ばれる防御手法を提案する。
本手法は,IMDB,DBpedia,20のニュースグループ,Reuters-21578データセットの4つの異なるテキスト分類ダットセットで評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been proved that deep neural networks are facing a new threat called
backdoor attacks, where the adversary can inject backdoors into the neural
network model through poisoning the training dataset. When the input containing
some special pattern called the backdoor trigger, the model with backdoor will
carry out malicious task such as misclassification specified by adversaries. In
text classification systems, backdoors inserted in the models can cause spam or
malicious speech to escape detection. Previous work mainly focused on the
defense of backdoor attacks in computer vision, little attention has been paid
to defense method for RNN backdoor attacks regarding text classification. In
this paper, through analyzing the changes in inner LSTM neurons, we proposed a
defense method called Backdoor Keyword Identification (BKI) to mitigate
backdoor attacks which the adversary performs against LSTM-based text
classification by data poisoning. This method can identify and exclude
poisoning samples crafted to insert backdoor into the model from training data
without a verified and trusted dataset. We evaluate our method on four
different text classification datset: IMDB, DBpedia ontology, 20 newsgroups and
Reuters-21578 dataset. It all achieves good performance regardless of the
trigger sentences.
- Abstract(参考訳): ディープニューラルネットワークはバックドア攻撃と呼ばれる新たな脅威に直面しており、敵はトレーニングデータセットを汚染することで、ニューラルネットワークモデルにバックドアを注入することができる。
バックドアトリガーと呼ばれる特別なパターンを含む入力の場合、バックドア付きモデルは敵が指定した誤分類のような悪意のあるタスクを実行する。
テキスト分類システムでは、モデルに挿入されたバックドアがスパムや悪意のある音声を検知から逃れる可能性がある。
コンピュータビジョンにおけるバックドア攻撃の防御に焦点を当てた以前の研究は、テキスト分類に関するRNNバックドア攻撃の防御方法にはほとんど注目されなかった。
本稿では,内LSTMニューロンの変化を分析することによって,データ中毒によるLSTMテキスト分類に対して敵が行うバックドア攻撃を緩和する,バックドアキーワード識別(BKI)と呼ばれる防御手法を提案する。
この方法は、検証された信頼できるデータセットを必要とせず、トレーニングデータからモデルにバックドアを挿入するために作られた毒物サンプルを識別して排除することができる。
本手法は,IMDB,DBpediaオントロジー,20のニュースグループ,Reuters-21578データセットの4つの異なるテキスト分類ダットセットで評価する。
トリガー文に関係なく、すべてが優れたパフォーマンスを達成する。
関連論文リスト
- Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - FreeEagle: Detecting Complex Neural Trojans in Data-Free Cases [50.065022493142116]
バックドア攻撃とも呼ばれるディープニューラルネットワークに対するトロイの木馬攻撃は、人工知能に対する典型的な脅威である。
FreeEagleは、複雑なバックドア攻撃を効果的に検出できる最初のデータフリーバックドア検出方法である。
論文 参考訳(メタデータ) (2023-02-28T11:31:29Z) - BackdoorBox: A Python Toolbox for Backdoor Learning [67.53987387581222]
このPythonツールボックスは、代表的で高度なバックドア攻撃と防御を実装している。
研究者や開発者は、ベンチマークやローカルデータセットで、さまざまなメソッドを簡単に実装し、比較することができる。
論文 参考訳(メタデータ) (2023-02-01T09:45:42Z) - BATT: Backdoor Attack with Transformation-based Triggers [72.61840273364311]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアの敵は、敵が特定したトリガーパターンによって活性化される隠れたバックドアを注入する。
最近の研究によると、既存の攻撃のほとんどは現実世界で失敗した。
論文 参考訳(メタデータ) (2022-11-02T16:03:43Z) - Detecting Backdoors in Deep Text Classifiers [43.36440869257781]
本稿では,テキスト分類モデルに対するバックドア攻撃を一般化する,最初の堅牢な防御機構を提案する。
我々の技術は、データ中毒や重毒など、最先端のバックドア攻撃に対する防御に極めて正確です。
論文 参考訳(メタデータ) (2022-10-11T07:48:03Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z) - Backdoors in Neural Models of Source Code [13.960152426268769]
ソースコードの深層学習の文脈でバックドアを研究する。
このようなバックドアをインストールするためにデータセットに毒を盛る方法を示す。
また、バックドアの注入の容易さと、それを除去する能力も示しています。
論文 参考訳(メタデータ) (2020-06-11T21:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。