論文の概要: Defending against Backdoor Attacks in Natural Language Generation
- arxiv url: http://arxiv.org/abs/2106.01810v1
- Date: Thu, 3 Jun 2021 13:00:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 20:01:18.960367
- Title: Defending against Backdoor Attacks in Natural Language Generation
- Title(参考訳): 自然言語生成におけるバックドア攻撃対策
- Authors: Chun Fan, Xiaoya Li, Yuxian Meng, Xiaofei Sun, Xiang Ao, Fei Wu, Jiwei
Li, Tianwei Zhang
- Abstract要約: バックドア攻撃と防御の正式な定義を与え、対応するベンチマークを開発する。
本稿では,特定の単語の削除や置き換えが生成出力に与える影響を調べることにより,攻撃トリガを検出することを提案する。
この研究が、深いNLGシステムに隠されたバックドアリスクの認識を高めることを願っている。
- 参考スコア(独自算出の注目度): 33.225853230947344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The frustratingly fragile nature of neural network models make current
natural language generation (NLG) systems prone to backdoor attacks and
generate malicious sequences that could be sexist or offensive. Unfortunately,
little effort has been invested to how backdoor attacks can affect current NLG
models and how to defend against these attacks. In this work, we investigate
this problem on two important NLG tasks, machine translation and dialogue
generation. By giving a formal definition for backdoor attack and defense, and
developing corresponding benchmarks, we design methods to attack NLG models,
which achieve high attack success to ask NLG models to generate malicious
sequences. To defend against these attacks, we propose to detect the attack
trigger by examining the effect of deleting or replacing certain words on the
generation outputs, which we find successful for certain types of attacks. We
will discuss the limitation of this work, and hope this work can raise the
awareness of backdoor risks concealed in deep NLG systems. (Code and data are
available at https://github.com/ShannonAI/backdoor_nlg.)
- Abstract(参考訳): ニューラルネットワークモデルの非常に脆弱な性質により、現在の自然言語生成(nlg)システムはバックドア攻撃を起こしやすくなり、セクシストや攻撃的な悪質なシーケンスを生成する。
残念なことに、バックドア攻撃が現在のNLGモデルにどのように影響するか、そしてこれらの攻撃に対する防御方法にはほとんど投資されていない。
本研究では,機械翻訳と対話生成という2つの重要なNLGタスクについて,この問題について検討する。
バックドア攻撃と防御を形式的に定義し、対応するベンチマークを開発することにより、nlgモデルを攻撃するための手法を設計し、nlgモデルに悪意のあるシーケンスを生成するように要求する。
これらの攻撃から防御するために,特定の単語の削除や置換が生成出力に与える影響を調べることにより,攻撃トリガを検出することを提案する。
我々は,本研究の限界について論じ,本研究が深いNLGシステムに隠されたバックドアリスクの認識を高めることを期待する。
(コードとデータはhttps://github.com/ShannonAI/backdoor_nlg.com)。
関連論文リスト
- Breaking the False Sense of Security in Backdoor Defense through Re-Activation Attack [32.74007523929888]
防衛後のバックドアモデルの特徴を再検討する。
既存の訓練後防衛戦略から派生した防衛モデルには,元のバックドアが現存していることが判明した。
我々は,これらの休眠バックドアを推論中に簡単に再活性化できることを実証的に示す。
論文 参考訳(メタデータ) (2024-05-25T08:57:30Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - ONION: A Simple and Effective Defense Against Textual Backdoor Attacks [91.83014758036575]
バックドア攻撃は、ディープニューラルネットワーク(DNN)に対する創発的な訓練時間の脅威である
本論文では,ONION という,シンプルで効果的なテキストバックドア・ディフェンスを提案する。
実験では,5種類のバックドア攻撃に対するBiLSTMとBERTの防御効果を示す。
論文 参考訳(メタデータ) (2020-11-20T12:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。