論文の概要: Defending Against Backdoor Attacks in Natural Language Generation
- arxiv url: http://arxiv.org/abs/2106.01810v3
- Date: Mon, 9 Oct 2023 15:55:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 17:33:09.681074
- Title: Defending Against Backdoor Attacks in Natural Language Generation
- Title(参考訳): 自然言語生成におけるバックドア攻撃対策
- Authors: Xiaofei Sun, Xiaoya Li, Yuxian Meng, Xiang Ao, Lingjuan Lyu, Jiwei Li
and Tianwei Zhang
- Abstract要約: バックドア攻撃と防衛の正式な定義を与えます。
本研究では,機械翻訳とダイアログ生成という2つの重要なNLGタスクについて検討する。
提案手法により,攻撃対象の逆方向の確率を検証した結果,全ての攻撃に対して効果的な防御性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 90.550383621687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The frustratingly fragile nature of neural network models make current
natural language generation (NLG) systems prone to backdoor attacks and
generate malicious sequences that could be sexist or offensive. Unfortunately,
little effort has been invested to how backdoor attacks can affect current NLG
models and how to defend against these attacks. In this work, by giving a
formal definition of backdoor attack and defense, we investigate this problem
on two important NLG tasks, machine translation and dialog generation. Tailored
to the inherent nature of NLG models (e.g., producing a sequence of coherent
words given contexts), we design defending strategies against attacks. We find
that testing the backward probability of generating sources given targets
yields effective defense performance against all different types of attacks,
and is able to handle the {\it one-to-many} issue in many NLG tasks such as
dialog generation. We hope that this work can raise the awareness of backdoor
risks concealed in deep NLG systems and inspire more future work (both attack
and defense) towards this direction.
- Abstract(参考訳): ニューラルネットワークモデルの非常に脆弱な性質により、現在の自然言語生成(nlg)システムはバックドア攻撃を起こしやすくなり、セクシストや攻撃的な悪質なシーケンスを生成する。
残念なことに、バックドア攻撃が現在のNLGモデルにどのように影響するか、そしてこれらの攻撃に対する防御方法にはほとんど投資されていない。
本研究では,バックドア攻撃と防御の形式的定義を提供することで,機械翻訳とダイアログ生成という2つの重要なNLGタスクについて,この問題を考察する。
NLGモデルの本質的な性質(例えば、与えられたコンテキストのコヒーレントな単語列の生成)に照らして、攻撃に対する防御戦略を設計する。
対象とする音源の後方方向の確率をテストすることで,全ての攻撃に対して効果的な防御性能が得られ,ダイアログ生成などの多くのNLGタスクにおいて,一対多の問題に対処できることがわかった。
この取り組みは、深いNLGシステムに隠されたバックドアリスクの認識を高め、この方向に向けたより将来の作業(攻撃と防御の両方)を促すことを願っている。
関連論文リスト
- Breaking the False Sense of Security in Backdoor Defense through Re-Activation Attack [32.74007523929888]
防衛後のバックドアモデルの特徴を再検討する。
既存の訓練後防衛戦略から派生した防衛モデルには,元のバックドアが現存していることが判明した。
我々は,これらの休眠バックドアを推論中に簡単に再活性化できることを実証的に示す。
論文 参考訳(メタデータ) (2024-05-25T08:57:30Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - ONION: A Simple and Effective Defense Against Textual Backdoor Attacks [91.83014758036575]
バックドア攻撃は、ディープニューラルネットワーク(DNN)に対する創発的な訓練時間の脅威である
本論文では,ONION という,シンプルで効果的なテキストバックドア・ディフェンスを提案する。
実験では,5種類のバックドア攻撃に対するBiLSTMとBERTの防御効果を示す。
論文 参考訳(メタデータ) (2020-11-20T12:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。