論文の概要: Rethink Stealthy Backdoor Attacks in Natural Language Processing
- arxiv url: http://arxiv.org/abs/2201.02993v1
- Date: Sun, 9 Jan 2022 12:34:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 03:21:46.239054
- Title: Rethink Stealthy Backdoor Attacks in Natural Language Processing
- Title(参考訳): 自然言語処理における静的バックドア攻撃の再考
- Authors: Lingfeng Shen, Haiyun Jiang, Lemao Liu, Shuming Shi
- Abstract要約: 盗んだバックドア攻撃の能力は、バックドア攻撃に分類されると過大評価される。
クリーン状態と毒素状態モデルとのASR差を測定するASRD(Attack successful rate difference)と呼ばれる新しい指標を提案する。
本手法は,ステルスなバックドア攻撃に対する最先端の防御方法よりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 35.6803390044542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, it has been shown that natural language processing (NLP) models are
vulnerable to a kind of security threat called the Backdoor Attack, which
utilizes a `backdoor trigger' paradigm to mislead the models. The most
threatening backdoor attack is the stealthy backdoor, which defines the
triggers as text style or syntactic. Although they have achieved an incredible
high attack success rate (ASR), we find that the principal factor contributing
to their ASR is not the `backdoor trigger' paradigm. Thus the capacity of these
stealthy backdoor attacks is overestimated when categorized as backdoor
attacks. Therefore, to evaluate the real attack power of backdoor attacks, we
propose a new metric called attack successful rate difference (ASRD), which
measures the ASR difference between clean state and poison state models.
Besides, since the defenses against stealthy backdoor attacks are absent, we
propose Trigger Breaker, consisting of two too simple tricks that can defend
against stealthy backdoor attacks effectively. Experiments on text
classification tasks show that our method achieves significantly better
performance than state-of-the-art defense methods against stealthy backdoor
attacks.
- Abstract(参考訳): 最近、自然言語処理(NLP)モデルは、バックドア攻撃と呼ばれるある種のセキュリティ脅威に弱いことが示されている。
最も危険なバックドア攻撃はステルスなバックドアで、トリガーをテキストスタイルまたは構文として定義する。
彼らは驚くほど高い攻撃成功率(ASR)を達成したが、彼らのASRに寄与する主要な要因は「バックドアトリガー」パラダイムではない。
したがって、これらのステルスバックドア攻撃の能力はバックドア攻撃として分類されると過大評価される。
そこで本研究では,バックドア攻撃の実際の攻撃力を評価するために,清浄状態と中毒状態のasr差を測定する攻撃成功率差(assack successfully rate difference, asrd)と呼ばれる新しい指標を提案する。
さらに、ステルスバックドア攻撃に対する防御が欠如しているため、ステルスバックドア攻撃に対して効果的に防御できる2つの単純なトリックからなるトリガーブレーカーを提案する。
テキスト分類タスクの実験により,我々の手法は,ステルスなバックドア攻撃に対する最先端の防御手法よりもはるかに優れた性能を発揮することが示された。
関連論文リスト
- BELT: Old-School Backdoor Attacks can Evade the State-of-the-Art Defense
with Backdoor Exclusivity Lifting [23.511329196409722]
本稿では,バックドア攻撃の新たな特徴,すなわちバックドア排他性について検討する。
バックドアの排他性は、入力変動の存在下で有効なバックドアトリガーの能力を測定する。
提案手法は, 従来の4つのバックドア攻撃のステルス性を大幅に向上させ, 攻撃成功率と通常の実用性にはほとんど費用がかからない。
論文 参考訳(メタデータ) (2023-12-08T08:35:16Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - ONION: A Simple and Effective Defense Against Textual Backdoor Attacks [91.83014758036575]
バックドア攻撃は、ディープニューラルネットワーク(DNN)に対する創発的な訓練時間の脅威である
本論文では,ONION という,シンプルで効果的なテキストバックドア・ディフェンスを提案する。
実験では,5種類のバックドア攻撃に対するBiLSTMとBERTの防御効果を示す。
論文 参考訳(メタデータ) (2020-11-20T12:17:21Z) - Don't Trigger Me! A Triggerless Backdoor Attack Against Deep Neural
Networks [22.28270345106827]
現在の最先端のバックドア攻撃では、ターゲットモデルがバックドアをアクティベートするために入力を変更する必要がある。
このトリガーは物理世界でのバックドア攻撃の難易度を高めるだけでなく、複数の防御機構によって容易に検出できる。
我々は、バックドアをトリガーする入力を変更する必要のない、ディープニューラルネットワークに対する最初のトリガーレスバックドア攻撃を示す。
論文 参考訳(メタデータ) (2020-10-07T09:01:39Z) - On Certifying Robustness against Backdoor Attacks via Randomized
Smoothing [74.79764677396773]
ランダム化平滑化法(ランダム化平滑化)と呼ばれる最近の手法を用いて,バックドア攻撃に対するロバスト性検証の有効性と有効性を検討した。
本研究は, バックドア攻撃に対するロバスト性を証明するために, ランダムな平滑化を用いた理論的実現可能性を示すものである。
既存の無作為な平滑化手法は、バックドア攻撃に対する防御効果に限界がある。
論文 参考訳(メタデータ) (2020-02-26T19:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。