論文の概要: Textual Backdoor Attacks with Iterative Trigger Injection
- arxiv url: http://arxiv.org/abs/2205.12700v1
- Date: Wed, 25 May 2022 11:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 14:35:59.253004
- Title: Textual Backdoor Attacks with Iterative Trigger Injection
- Title(参考訳): 反復トリガー注入によるテキストバックドア攻撃
- Authors: Jun Yan, Vansh Gupta, Xiang Ren
- Abstract要約: バックドア攻撃は自然言語処理(NLP)システムにとって新たな脅威となっている。
有毒データに基づいて訓練された被害者モデルに "バックドア" を埋め込むことができる
訓練データに「トリガー」を反復注入することで、効果的でステルス的なバックドアアタックを設計できることを示す。
- 参考スコア(独自算出の注目度): 24.76186072273438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The backdoor attack has become an emerging threat for Natural Language
Processing (NLP) systems. A victim model trained on poisoned data can be
embedded with a "backdoor", making it predict the adversary-specified output
(e.g., the positive sentiment label) on inputs satisfying the trigger pattern
(e.g., containing a certain keyword). In this paper, we demonstrate that it's
possible to design an effective and stealthy backdoor attack by iteratively
injecting "triggers" into a small set of training data. While all triggers are
common words that fit into the context, our poisoning process strongly
associates them with the target label, forming the model backdoor. Experiments
on sentiment analysis and hate speech detection show that our proposed attack
is both stealthy and effective, raising alarm on the usage of untrusted
training data. We further propose a defense method to combat this threat.
- Abstract(参考訳): バックドア攻撃は自然言語処理(NLP)システムにとって新たな脅威となっている。
中毒データに基づいてトレーニングされた被害者モデルは、トリガーパターン(例えば、特定のキーワードを含む)を満たす入力に対する敵特定出力(例えば、ポジティブ感情ラベル)を予測する「バックドア」と組み込むことができる。
本稿では,少量のトレーニングデータに「トリガー」を反復的に注入することにより,効果的かつステルス的なバックドア攻撃を設計できることを実証する。
すべてのトリガーは文脈に適合する一般的な単語であるが、我々の中毒プロセスはそれらをターゲットラベルと強く関連付け、モデルバックドアを形成する。
感情分析とヘイトスピーチ検出の実験により,提案する攻撃はステルス的かつ効果的であり,信頼できないトレーニングデータの使用を警告する。
我々はさらに、この脅威に対処するための防衛方法を提案する。
関連論文リスト
- SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Poisoning-based Backdoor Attacks for Arbitrary Target Label with Positive Triggers [8.15496105932744]
中毒ベースのバックドア攻撃は、ディープニューラルネットワーク(DNN)トレーニングのデータ準備段階における脆弱性を露呈する。
我々は,敵対的手法にインスパイアされた新たなトリガーの分類を開発し,Positive Triggers (PPT) を用いたマルチラベル・マルチペイロード型バックドアアタックを開発した。
汚いラベル設定とクリーンラベル設定の両方において、提案した攻撃が様々なデータセットの精度を犠牲にすることなく高い攻撃成功率を達成することを実証的に示す。
論文 参考訳(メタデータ) (2024-05-09T06:45:11Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in
Language Models [41.1058288041033]
本稿では,プロンプトに基づくクリーンラベルバックドア攻撃の新規かつ効率的な方法であるProAttackを提案する。
本手法では, 外部からのトリガーを必要とせず, 汚染試料の正確なラベル付けを保証し, バックドア攻撃のステルス性を向上させる。
論文 参考訳(メタデータ) (2023-05-02T06:19:36Z) - Backdoor Attacks with Input-unique Triggers in NLP [34.98477726215485]
Backdoor攻撃は、ニューラルネットワークを誘導して毒データに対する誤った予測を行い、クリーンなデータセットの予測を変更せずに維持することを目的としている。
本稿では,入力に固有のバックドアトリガを生成する,入出力型バックドアアタック(NURA)を提案する。
論文 参考訳(メタデータ) (2023-03-25T01:41:54Z) - Narcissus: A Practical Clean-Label Backdoor Attack with Limited
Information [22.98039177091884]
クリーンラベル」バックドア攻撃には、トレーニングセット全体の知識が必要である。
本稿では,対象クラスの代表例の知識のみに基づいて,クリーンラベルバックドア攻撃をマウントするアルゴリズムを提案する。
私たちの攻撃は、物理的な世界にトリガーが存在する場合でも、データセットやモデル間でうまく機能します。
論文 参考訳(メタデータ) (2022-04-11T16:58:04Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。