論文の概要: Triggerless Backdoor Attack for NLP Tasks with Clean Labels
- arxiv url: http://arxiv.org/abs/2111.07970v1
- Date: Mon, 15 Nov 2021 18:36:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 13:51:00.774974
- Title: Triggerless Backdoor Attack for NLP Tasks with Clean Labels
- Title(参考訳): クリーンラベルを用いたNLPタスクのトリガーレスバックドアアタック
- Authors: Leilei Gan, Jiwei Li, Tianwei Zhang, Xiaoya Li, Yuxian Meng, Fei Wu,
Shangwei Guo, Chun Fan
- Abstract要約: バックドア攻撃で有毒なデータを構築するための標準的な戦略は、選択した文にトリガーを挿入し、元のラベルをターゲットラベルに変更することである。
この戦略は、トリガーとラベルの両方の観点から容易に検出されるという深刻な欠陥を伴っている。
そこで本研究では,外部トリガーを必要としないテキストバックドア攻撃を行う新たな手法を提案する。
- 参考スコア(独自算出の注目度): 31.308324978194637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor attacks pose a new threat to NLP models. A standard strategy to
construct poisoned data in backdoor attacks is to insert triggers (e.g., rare
words) into selected sentences and alter the original label to a target label.
This strategy comes with a severe flaw of being easily detected from both the
trigger and the label perspectives: the trigger injected, which is usually a
rare word, leads to an abnormal natural language expression, and thus can be
easily detected by a defense model; the changed target label leads the example
to be mistakenly labeled and thus can be easily detected by manual inspections.
To deal with this issue, in this paper, we propose a new strategy to perform
textual backdoor attacks which do not require an external trigger, and the
poisoned samples are correctly labeled. The core idea of the proposed strategy
is to construct clean-labeled examples, whose labels are correct but can lead
to test label changes when fused with the training set. To generate poisoned
clean-labeled examples, we propose a sentence generation model based on the
genetic algorithm to cater to the non-differentiable characteristic of text
data. Extensive experiments demonstrate that the proposed attacking strategy is
not only effective, but more importantly, hard to defend due to its triggerless
and clean-labeled nature. Our work marks the first step towards developing
triggerless attacking strategies in NLP.
- Abstract(参考訳): バックドア攻撃はNLPモデルに新たな脅威をもたらす。
バックドア攻撃で有毒データを構築する標準的な戦略は、選択された文にトリガー(例:レアワード)を挿入し、元のラベルをターゲットラベルに変更することである。
この戦略は、トリガーとラベルの両方から容易に検出できる重大な欠陥を伴い、通常稀な単語であるトリガーインジェクションは、異常な自然言語表現をもたらすため、防衛モデルにより容易に検出でき、変更対象ラベルは、誤ってラベル付けされ、手動検査により容易に検出できる。
この問題に対処するため,本稿では,外部トリガを必要としないテキストバックドア攻撃を行うための新しい戦略を提案する。
提案された戦略の核となる考え方は、ラベルが正しいが、トレーニングセットと融合した場合にラベルの変更をテストできるクリーンラベルの例を構築することである。
そこで本研究では, 遺伝アルゴリズムに基づく文生成モデルを提案し, テキストデータの識別不能な特性に適応する。
大規模な実験では、提案された攻撃戦略は効果があるだけでなく、トリガーレスでクリーンなラベルが付けられた性質のために防御が難しいことが示されている。
我々の研究は、NLPでトリガーレス攻撃戦略を開発するための第一歩です。
関連論文リスト
- SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Shortcuts Arising from Contrast: Effective and Covert Clean-Label Attacks in Prompt-Based Learning [40.130762098868736]
本稿では、アクティベーション値を活用し、トリガ設計とデータ選択戦略を統合して、より強力なショートカット機能を実現するContrastive Shortcut Injection (CSI) を提案する。
フルショットおよび少数ショットのテキスト分類タスクに関する広範な実験により、CSIの高有効性と高い盗聴性を低毒性率で実証的に検証した。
論文 参考訳(メタデータ) (2024-03-30T20:02:36Z) - Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation [120.42853706967188]
本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。
既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned
Samples in NLP [29.375957205348115]
本稿では,モデル予測の解釈可能性に着目した,革新的な試験時間有毒サンプル検出フレームワークを提案する。
我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして使用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。
論文 参考訳(メタデータ) (2023-08-04T03:48:28Z) - Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in
Language Models [41.1058288041033]
本稿では,プロンプトに基づくクリーンラベルバックドア攻撃の新規かつ効率的な方法であるProAttackを提案する。
本手法では, 外部からのトリガーを必要とせず, 汚染試料の正確なラベル付けを保証し, バックドア攻撃のステルス性を向上させる。
論文 参考訳(メタデータ) (2023-05-02T06:19:36Z) - BITE: Textual Backdoor Attacks with Iterative Trigger Injection [24.76186072273438]
バックドア攻撃はNLPシステムにとって新たな脅威となっている。
有害なトレーニングデータを提供することで、敵は被害者モデルに"バックドア"を埋め込むことができる。
ターゲットラベルと「トリガーワード」のセットとの間に強い相関関係を確立するため、トレーニングデータを害するバックドアアタックであるBITEを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:58:38Z) - WeDef: Weakly Supervised Backdoor Defense for Text Classification [48.19967241668793]
既存のバックドア防御法は、限定的なトリガータイプにのみ有効である。
本稿では,弱教師付きバックドア防御フレームワークWeDefを提案する。
WeDefは一般的なトリガーベースの攻撃に対して有効であることを示す。
論文 参考訳(メタデータ) (2022-05-24T05:53:11Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。