論文の概要: ONION: A Simple and Effective Defense Against Textual Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2011.10369v3
- Date: Wed, 3 Nov 2021 18:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 06:17:09.998250
- Title: ONION: A Simple and Effective Defense Against Textual Backdoor Attacks
- Title(参考訳): OnION: テキストバックドア攻撃に対するシンプルで効果的な防御
- Authors: Fanchao Qi, Yangyi Chen, Mukai Li, Yuan Yao, Zhiyuan Liu, Maosong Sun
- Abstract要約: バックドア攻撃は、ディープニューラルネットワーク(DNN)に対する創発的な訓練時間の脅威である
本論文では,ONION という,シンプルで効果的なテキストバックドア・ディフェンスを提案する。
実験では,5種類のバックドア攻撃に対するBiLSTMとBERTの防御効果を示す。
- 参考スコア(独自算出の注目度): 91.83014758036575
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Backdoor attacks are a kind of emergent training-time threat to deep neural
networks (DNNs). They can manipulate the output of DNNs and possess high
insidiousness. In the field of natural language processing, some attack methods
have been proposed and achieve very high attack success rates on multiple
popular models. Nevertheless, there are few studies on defending against
textual backdoor attacks. In this paper, we propose a simple and effective
textual backdoor defense named ONION, which is based on outlier word detection
and, to the best of our knowledge, is the first method that can handle all the
textual backdoor attack situations. Experiments demonstrate the effectiveness
of our model in defending BiLSTM and BERT against five different backdoor
attacks. All the code and data of this paper can be obtained at
https://github.com/thunlp/ONION.
- Abstract(参考訳): バックドア攻撃は、ディープニューラルネットワーク(DNN)に対する緊急トレーニングタイム脅威の一種だ。
彼らはDNNの出力を操作でき、攻撃性が高い。
自然言語処理の分野では、いくつかの攻撃手法が提案され、複数の人気モデルに対して非常に高い攻撃成功率を達成している。
それでも、テキストバックドア攻撃に対する防御に関する研究はほとんどない。
そこで本研究では,オニオンという単純なテキストバックドア防御手法を提案する。オニオンは単語の異常検出に基づくもので,我々の知る限りでは,すべてのテキストバックドア攻撃を処理できる最初の手法である。
実験では,5種類のバックドア攻撃に対するBiLSTMとBERTの防御効果を示す。
この論文のコードとデータは、https://github.com/thunlp/ONION.comで入手できる。
関連論文リスト
- UNIT: Backdoor Mitigation via Automated Neural Distribution Tightening [43.09750187130803]
ディープニューラルネットワーク(DNN)は様々な分野で有効性を示している。
DNNはバックドアアタックに対して脆弱で、インプットにトリガーと呼ばれるユニークなパターンを注入することで、アタック・チョーゼンターゲットラベルの誤分類を引き起こす。
本稿では, 各種攻撃に対するバックドア効果を効果的に除去する, ポストトレーニング防衛技術を紹介する。
論文 参考訳(メタデータ) (2024-07-16T04:33:05Z) - NOTABLE: Transferable Backdoor Attacks Against Prompt-based NLP Models [17.52386568785587]
プロンプトベースの学習は、バックドア攻撃に弱い。
我々はNOTABLEと呼ばれるプロンプトベースモデルに対するトランスファー可能なバックドア攻撃を提案する。
Notableは、特定の単語にトリガーをバインドするアダプタを利用して、PLMのエンコーダにバックドアを注入する。
論文 参考訳(メタデータ) (2023-05-28T23:35:17Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Mind the Style of Text! Adversarial and Backdoor Attacks Based on Text
Style Transfer [49.67011295450601]
我々は,テキストスタイルの転送をベースとして,敵対的かつバックドア攻撃を行うための最初の試みを行う。
実験結果から,一般的なNLPモデルは,テキストスタイルの転送に基づく逆行攻撃とバックドア攻撃の両方に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-10-14T03:54:16Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - On Certifying Robustness against Backdoor Attacks via Randomized
Smoothing [74.79764677396773]
ランダム化平滑化法(ランダム化平滑化)と呼ばれる最近の手法を用いて,バックドア攻撃に対するロバスト性検証の有効性と有効性を検討した。
本研究は, バックドア攻撃に対するロバスト性を証明するために, ランダムな平滑化を用いた理論的実現可能性を示すものである。
既存の無作為な平滑化手法は、バックドア攻撃に対する防御効果に限界がある。
論文 参考訳(メタデータ) (2020-02-26T19:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。