論文の概要: Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution
- arxiv url: http://arxiv.org/abs/2106.06361v1
- Date: Fri, 11 Jun 2021 13:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:12:50.667518
- Title: Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution
- Title(参考訳): コンビネーションロックを回す: 単語置換による学習可能なテキストバックドア攻撃
- Authors: Fanchao Qi, Yuan Yao, Sophia Xu, Zhiyuan Liu, Maosong Sun
- Abstract要約: 最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
- 参考スコア(独自算出の注目度): 57.51117978504175
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent studies show that neural natural language processing (NLP) models are
vulnerable to backdoor attacks. Injected with backdoors, models perform
normally on benign examples but produce attacker-specified predictions when the
backdoor is activated, presenting serious security threats to real-world
applications. Since existing textual backdoor attacks pay little attention to
the invisibility of backdoors, they can be easily detected and blocked. In this
work, we present invisible backdoors that are activated by a learnable
combination of word substitution. We show that NLP models can be injected with
backdoors that lead to a nearly 100% attack success rate, whereas being highly
invisible to existing defense strategies and even human inspections. The
results raise a serious alarm to the security of NLP models, which requires
further research to be resolved. All the data and code of this paper are
released at https://github.com/thunlp/BkdAtk-LWS.
- Abstract(参考訳): 最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアで注入されたモデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成し、現実世界のアプリケーションに深刻なセキュリティ脅威をもたらす。
既存のテキストバックドア攻撃はバックドアの可視性にほとんど注意を払わないため、容易に検出してブロックすることができる。
本研究では,単語置換の学習可能な組み合わせによって活性化される,見えないバックドアを提案する。
また,NLPモデルにバックドアを注入することで,攻撃成功率を100%近く向上させることができる一方で,既存の防衛戦略や人体検査にも極めて不可視であることを示す。
その結果、NLPモデルのセキュリティに深刻な警告が生まれ、さらなる研究が解決される必要がある。
この論文のすべてのデータとコードはhttps://github.com/thunlp/BkdAtk-LWSで公開されている。
関連論文リスト
- Flatness-aware Sequential Learning Generates Resilient Backdoors [7.969181278996343]
近年、バックドア攻撃は機械学習モデルのセキュリティに対する新たな脅威となっている。
本稿では,連続学習(CL)技術を活用して,バックドアのCFに対処する。
レジリエントなバックドアを生成可能な,SBL(Sequential Backdoor Learning)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-20T03:30:05Z) - Unelicitable Backdoors in Language Models via Cryptographic Transformer Circuits [1.1118610055902116]
自己回帰型トランスフォーマーモデルに新しいバックドアのクラスを導入する。
無効性により、ディフェンダーがバックドアを起動するのを防ぎ、デプロイ前に評価や検出が不可能になる。
我々は, 暗号技術を用いることで, 新規な構築が不必要であるだけでなく, 良好な堅牢性を有することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:55:41Z) - Neurotoxin: Durable Backdoors in Federated Learning [73.82725064553827]
連合学習システムは バックドア攻撃の訓練中に 固有の脆弱性がある
我々は,既存のバックドア攻撃に対する単純な一直線修正であるニューロトキシンを提案する。
論文 参考訳(メタデータ) (2022-06-12T16:52:52Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - ONION: A Simple and Effective Defense Against Textual Backdoor Attacks [91.83014758036575]
バックドア攻撃は、ディープニューラルネットワーク(DNN)に対する創発的な訓練時間の脅威である
本論文では,ONION という,シンプルで効果的なテキストバックドア・ディフェンスを提案する。
実験では,5種類のバックドア攻撃に対するBiLSTMとBERTの防御効果を示す。
論文 参考訳(メタデータ) (2020-11-20T12:17:21Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。