論文の概要: BITE: Textual Backdoor Attacks with Iterative Trigger Injection
- arxiv url: http://arxiv.org/abs/2205.12700v3
- Date: Mon, 29 May 2023 17:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 04:19:44.328199
- Title: BITE: Textual Backdoor Attacks with Iterative Trigger Injection
- Title(参考訳): BITE:反復トリガー注入によるテキストバックドア攻撃
- Authors: Jun Yan, Vansh Gupta, Xiang Ren
- Abstract要約: バックドア攻撃はNLPシステムにとって新たな脅威となっている。
有害なトレーニングデータを提供することで、敵は被害者モデルに"バックドア"を埋め込むことができる。
ターゲットラベルと「トリガーワード」のセットとの間に強い相関関係を確立するため、トレーニングデータを害するバックドアアタックであるBITEを提案する。
- 参考スコア(独自算出の注目度): 24.76186072273438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor attacks have become an emerging threat to NLP systems. By providing
poisoned training data, the adversary can embed a "backdoor" into the victim
model, which allows input instances satisfying certain textual patterns (e.g.,
containing a keyword) to be predicted as a target label of the adversary's
choice. In this paper, we demonstrate that it is possible to design a backdoor
attack that is both stealthy (i.e., hard to notice) and effective (i.e., has a
high attack success rate). We propose BITE, a backdoor attack that poisons the
training data to establish strong correlations between the target label and a
set of "trigger words". These trigger words are iteratively identified and
injected into the target-label instances through natural word-level
perturbations. The poisoned training data instruct the victim model to predict
the target label on inputs containing trigger words, forming the backdoor.
Experiments on four text classification datasets show that our proposed attack
is significantly more effective than baseline methods while maintaining decent
stealthiness, raising alarm on the usage of untrusted training data. We further
propose a defense method named DeBITE based on potential trigger word removal,
which outperforms existing methods in defending against BITE and generalizes
well to handling other backdoor attacks.
- Abstract(参考訳): バックドア攻撃はNLPシステムにとって新たな脅威となっている。
有害なトレーニングデータを提供することにより、敵は被害者モデルに"バックドア"を埋め込むことができ、敵の選択のターゲットラベルとして予測される特定のテキストパターン(例えばキーワードを含む)を満たす入力インスタンスを実行できる。
本稿では、ステルス性(すなわち、目立たない)と有効性(すなわち、高い攻撃成功率)の両方を有するバックドア攻撃を設計できることを実証する。
ターゲットラベルと「トリガーワード」のセットとの間に強い相関関係を確立するために、トレーニングデータに毒を盛るバックドア攻撃であるbitchを提案する。
これらのトリガーワードは、自然言語レベルの摂動を通じて反復的に識別され、ターゲットラベルインスタンスに注入される。
有毒なトレーニングデータは、被害者モデルにトリガーワードを含む入力に対してターゲットラベルを予測させ、バックドアを形成する。
4つのテキスト分類データセットにおける実験により,提案手法がベースライン手法よりも有意に有効であること,また,信頼できないトレーニングデータの使用に対する警告が高まること,などが示されている。
さらに,提案手法であるdebite(デビット)は,他のバックドア攻撃に対する対処法として,既存の手法よりも優れた防御法である。
関連論文リスト
- Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Poisoning-based Backdoor Attacks for Arbitrary Target Label with Positive Triggers [8.15496105932744]
中毒ベースのバックドア攻撃は、ディープニューラルネットワーク(DNN)トレーニングのデータ準備段階における脆弱性を露呈する。
我々は,敵対的手法にインスパイアされた新たなトリガーの分類を開発し,Positive Triggers (PPT) を用いたマルチラベル・マルチペイロード型バックドアアタックを開発した。
汚いラベル設定とクリーンラベル設定の両方において、提案した攻撃が様々なデータセットの精度を犠牲にすることなく高い攻撃成功率を達成することを実証的に示す。
論文 参考訳(メタデータ) (2024-05-09T06:45:11Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in
Language Models [41.1058288041033]
本稿では,プロンプトに基づくクリーンラベルバックドア攻撃の新規かつ効率的な方法であるProAttackを提案する。
本手法では, 外部からのトリガーを必要とせず, 汚染試料の正確なラベル付けを保証し, バックドア攻撃のステルス性を向上させる。
論文 参考訳(メタデータ) (2023-05-02T06:19:36Z) - Backdoor Attacks with Input-unique Triggers in NLP [34.98477726215485]
Backdoor攻撃は、ニューラルネットワークを誘導して毒データに対する誤った予測を行い、クリーンなデータセットの予測を変更せずに維持することを目的としている。
本稿では,入力に固有のバックドアトリガを生成する,入出力型バックドアアタック(NURA)を提案する。
論文 参考訳(メタデータ) (2023-03-25T01:41:54Z) - Narcissus: A Practical Clean-Label Backdoor Attack with Limited
Information [22.98039177091884]
クリーンラベル」バックドア攻撃には、トレーニングセット全体の知識が必要である。
本稿では,対象クラスの代表例の知識のみに基づいて,クリーンラベルバックドア攻撃をマウントするアルゴリズムを提案する。
私たちの攻撃は、物理的な世界にトリガーが存在する場合でも、データセットやモデル間でうまく機能します。
論文 参考訳(メタデータ) (2022-04-11T16:58:04Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。