論文の概要: BadNL: Backdoor Attacks against NLP Models with Semantic-preserving
Improvements
- arxiv url: http://arxiv.org/abs/2006.01043v2
- Date: Mon, 4 Oct 2021 18:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 07:53:01.234627
- Title: BadNL: Backdoor Attacks against NLP Models with Semantic-preserving
Improvements
- Title(参考訳): BadNL: セマンティック保存改善によるNLPモデルに対するバックドア攻撃
- Authors: Xiaoyi Chen, Ahmed Salem, Dingfan Chen, Michael Backes, Shiqing Ma,
Qingni Shen, Zhonghai Wu, Yang Zhang
- Abstract要約: 我々は,新たな攻撃方法を含む一般的なNLPバックドア攻撃フレームワークであるBadNLを提案する。
我々の攻撃は、原モデルの実用性に無視できる効果で、ほぼ完璧な攻撃成功率を達成する。
- 参考スコア(独自算出の注目度): 33.309299864983295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) have progressed rapidly during the past decade
and have been deployed in various real-world applications. Meanwhile, DNN
models have been shown to be vulnerable to security and privacy attacks. One
such attack that has attracted a great deal of attention recently is the
backdoor attack. Specifically, the adversary poisons the target model's
training set to mislead any input with an added secret trigger to a target
class.
Previous backdoor attacks predominantly focus on computer vision (CV)
applications, such as image classification. In this paper, we perform a
systematic investigation of backdoor attack on NLP models, and propose BadNL, a
general NLP backdoor attack framework including novel attack methods.
Specifically, we propose three methods to construct triggers, namely BadChar,
BadWord, and BadSentence, including basic and semantic-preserving variants. Our
attacks achieve an almost perfect attack success rate with a negligible effect
on the original model's utility. For instance, using the BadChar, our backdoor
attack achieves a 98.9% attack success rate with yielding a utility improvement
of 1.5% on the SST-5 dataset when only poisoning 3% of the original set.
Moreover, we conduct a user study to prove that our triggers can well preserve
the semantics from humans perspective.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)はこの10年間で急速に進歩し、さまざまな現実世界のアプリケーションにデプロイされている。
一方、DNNモデルはセキュリティやプライバシ攻撃に弱いことが示されている。
最近大きな注目を集めた攻撃の一つが、バックドア攻撃だ。
具体的には、敵はターゲットモデルのトレーニングセットに、ターゲットクラスに秘密のトリガーを追加して入力を誤解させる。
以前のバックドア攻撃は主に画像分類などのコンピュータビジョン(CV)アプリケーションに焦点を当てていた。
本稿では,NLPモデルに対するバックドア攻撃を系統的に調査し,新たな攻撃方法を含む一般的なNLPバックドア攻撃フレームワークであるBadNLを提案する。
具体的には,badchar,badword,badsentenceというトリガーを構成する3つの手法を提案する。
我々の攻撃は ほぼ完全な攻撃成功率を達成し 元のモデルの有用性に 不可解な効果を与えます
例えば、badcharを使用すると、我々のバックドア攻撃は98.9%のアタック成功率を達成し、sst-5データセットで3%の毒を盛るだけで1.5%のユーティリティ改善が得られます。
さらに,人間の視点から意味を十分に保存できることを証明するために,ユーザスタディを実施している。
関連論文リスト
- Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。
本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。
この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文 参考訳(メタデータ) (2023-12-31T06:43:36Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Kallima: A Clean-label Framework for Textual Backdoor Attacks [25.332731545200808]
マイメシススタイルのバックドアサンプルを合成するための,最初のクリーンラベルフレームワークKallimaを提案する。
我々は,対象クラスに属する入力を逆方向の摂動で修正し,モデルがバックドアトリガに依存するようにした。
論文 参考訳(メタデータ) (2022-06-03T21:44:43Z) - Narcissus: A Practical Clean-Label Backdoor Attack with Limited
Information [22.98039177091884]
クリーンラベル」バックドア攻撃には、トレーニングセット全体の知識が必要である。
本稿では,対象クラスの代表例の知識のみに基づいて,クリーンラベルバックドア攻撃をマウントするアルゴリズムを提案する。
私たちの攻撃は、物理的な世界にトリガーが存在する場合でも、データセットやモデル間でうまく機能します。
論文 参考訳(メタデータ) (2022-04-11T16:58:04Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Light Can Hack Your Face! Black-box Backdoor Attack on Face Recognition
Systems [0.0]
顔認識システムにおけるブラックボックスバックドア攻撃手法を提案する。
バックドアトリガは極めて効果的であり、攻撃成功率は最大で88%である。
本研究は,既存の顔認識/検証技術のセキュリティ問題に注意を喚起する,新たな物理的バックドア攻撃を明らかにしたことを強調した。
論文 参考訳(メタデータ) (2020-09-15T11:50:29Z) - Natural Backdoor Attack on Text Data [15.35163515187413]
本論文では,NLPモデルに対するテキストバックドア攻撃を提案する。
テキストデータにトリガーを発生させ,修正範囲,人間認識,特殊事例に基づいて,さまざまな種類のトリガーを調査する。
その結果,テキスト分類作業において100%バックドア攻撃の成功率と0.83%の犠牲となる優れた性能を示した。
論文 参考訳(メタデータ) (2020-06-29T16:40:14Z) - Defending against Backdoor Attack on Deep Neural Networks [98.45955746226106]
トレーニングデータの一部にバックドアトリガーを注入する、いわゆるテキストバックドア攻撃について検討する。
実験の結果,本手法は攻撃成功率を効果的に低減し,クリーン画像の分類精度も高いことがわかった。
論文 参考訳(メタデータ) (2020-02-26T02:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。