論文の概要: Rethink Stealthy Backdoor Attacks in Natural Language Processing
- arxiv url: http://arxiv.org/abs/2201.02993v1
- Date: Sun, 9 Jan 2022 12:34:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 03:21:46.239054
- Title: Rethink Stealthy Backdoor Attacks in Natural Language Processing
- Title(参考訳): 自然言語処理における静的バックドア攻撃の再考
- Authors: Lingfeng Shen, Haiyun Jiang, Lemao Liu, Shuming Shi
- Abstract要約: 盗んだバックドア攻撃の能力は、バックドア攻撃に分類されると過大評価される。
クリーン状態と毒素状態モデルとのASR差を測定するASRD(Attack successful rate difference)と呼ばれる新しい指標を提案する。
本手法は,ステルスなバックドア攻撃に対する最先端の防御方法よりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 35.6803390044542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, it has been shown that natural language processing (NLP) models are
vulnerable to a kind of security threat called the Backdoor Attack, which
utilizes a `backdoor trigger' paradigm to mislead the models. The most
threatening backdoor attack is the stealthy backdoor, which defines the
triggers as text style or syntactic. Although they have achieved an incredible
high attack success rate (ASR), we find that the principal factor contributing
to their ASR is not the `backdoor trigger' paradigm. Thus the capacity of these
stealthy backdoor attacks is overestimated when categorized as backdoor
attacks. Therefore, to evaluate the real attack power of backdoor attacks, we
propose a new metric called attack successful rate difference (ASRD), which
measures the ASR difference between clean state and poison state models.
Besides, since the defenses against stealthy backdoor attacks are absent, we
propose Trigger Breaker, consisting of two too simple tricks that can defend
against stealthy backdoor attacks effectively. Experiments on text
classification tasks show that our method achieves significantly better
performance than state-of-the-art defense methods against stealthy backdoor
attacks.
- Abstract(参考訳): 最近、自然言語処理(NLP)モデルは、バックドア攻撃と呼ばれるある種のセキュリティ脅威に弱いことが示されている。
最も危険なバックドア攻撃はステルスなバックドアで、トリガーをテキストスタイルまたは構文として定義する。
彼らは驚くほど高い攻撃成功率(ASR)を達成したが、彼らのASRに寄与する主要な要因は「バックドアトリガー」パラダイムではない。
したがって、これらのステルスバックドア攻撃の能力はバックドア攻撃として分類されると過大評価される。
そこで本研究では,バックドア攻撃の実際の攻撃力を評価するために,清浄状態と中毒状態のasr差を測定する攻撃成功率差(assack successfully rate difference, asrd)と呼ばれる新しい指標を提案する。
さらに、ステルスバックドア攻撃に対する防御が欠如しているため、ステルスバックドア攻撃に対して効果的に防御できる2つの単純なトリックからなるトリガーブレーカーを提案する。
テキスト分類タスクの実験により,我々の手法は,ステルスなバックドア攻撃に対する最先端の防御手法よりもはるかに優れた性能を発揮することが示された。
関連論文リスト
- A Spatiotemporal Stealthy Backdoor Attack against Cooperative Multi-Agent Deep Reinforcement Learning [12.535344011523897]
協調型多エージェント深層強化学習(c-MADRL)は、バックドア攻撃の脅威にさらされている。
我々は,c-MADRLに対する新たなバックドア攻撃を提案し,単一のエージェントにのみバックドアを埋め込むことで,マルチエージェントチーム全体を攻撃する。
私たちのバックドア攻撃は高い攻撃成功率(91.6%)を達成でき、クリーンパフォーマンスのばらつきは低い(3.7%)。
論文 参考訳(メタデータ) (2024-09-12T06:17:37Z) - Breaking the False Sense of Security in Backdoor Defense through Re-Activation Attack [32.74007523929888]
防衛後のバックドアモデルの特徴を再検討する。
既存の訓練後防衛戦略から派生した防衛モデルには,元のバックドアが現存していることが判明した。
我々は,これらの休眠バックドアを推論中に簡単に再活性化できることを実証的に示す。
論文 参考訳(メタデータ) (2024-05-25T08:57:30Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - BELT: Old-School Backdoor Attacks can Evade the State-of-the-Art Defense with Backdoor Exclusivity Lifting [21.91491621538245]
本稿では,バックドア攻撃の新たな特徴,すなわちバックドア排他性について検討する。
バックドアの排他性は、入力変動の存在下で有効なバックドアトリガーの能力を測定する。
提案手法は, 従来の4つのバックドア攻撃のステルス性を大幅に向上させ, 攻撃成功率と通常の実用性にはほとんど費用がかからない。
論文 参考訳(メタデータ) (2023-12-08T08:35:16Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - Don't Trigger Me! A Triggerless Backdoor Attack Against Deep Neural
Networks [22.28270345106827]
現在の最先端のバックドア攻撃では、ターゲットモデルがバックドアをアクティベートするために入力を変更する必要がある。
このトリガーは物理世界でのバックドア攻撃の難易度を高めるだけでなく、複数の防御機構によって容易に検出できる。
我々は、バックドアをトリガーする入力を変更する必要のない、ディープニューラルネットワークに対する最初のトリガーレスバックドア攻撃を示す。
論文 参考訳(メタデータ) (2020-10-07T09:01:39Z) - On Certifying Robustness against Backdoor Attacks via Randomized
Smoothing [74.79764677396773]
ランダム化平滑化法(ランダム化平滑化)と呼ばれる最近の手法を用いて,バックドア攻撃に対するロバスト性検証の有効性と有効性を検討した。
本研究は, バックドア攻撃に対するロバスト性を証明するために, ランダムな平滑化を用いた理論的実現可能性を示すものである。
既存の無作為な平滑化手法は、バックドア攻撃に対する防御効果に限界がある。
論文 参考訳(メタデータ) (2020-02-26T19:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。