論文の概要: Expose Backdoors on the Way: A Feature-Based Efficient Defense against
Textual Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2210.07907v1
- Date: Fri, 14 Oct 2022 15:44:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 15:06:36.926617
- Title: Expose Backdoors on the Way: A Feature-Based Efficient Defense against
Textual Backdoor Attacks
- Title(参考訳): バックドアを公開する - テキストバックドア攻撃に対する機能ベースの効率的な防御
- Authors: Sishuo Chen, Wenkai Yang, Zhiyuan Zhang, Xiaohan Bi, Xu Sun
- Abstract要約: NLPモデルの以前のオンラインバックドア防御手法は、入力レベルまたは出力レベルの異常のみに焦点を当てていた。
本稿では, 汚染された試料とクリーンな試料とを特徴レベルで識別する, 特徴量に基づく効率的なオンライン防御手法を提案する。
- 参考スコア(独自算出の注目度): 20.531489681650154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language processing (NLP) models are known to be vulnerable to
backdoor attacks, which poses a newly arisen threat to NLP models. Prior online
backdoor defense methods for NLP models only focus on the anomalies at either
the input or output level, still suffering from fragility to adaptive attacks
and high computational cost. In this work, we take the first step to
investigate the unconcealment of textual poisoned samples at the
intermediate-feature level and propose a feature-based efficient online defense
method. Through extensive experiments on existing attacking methods, we find
that the poisoned samples are far away from clean samples in the intermediate
feature space of a poisoned NLP model. Motivated by this observation, we devise
a distance-based anomaly score (DAN) to distinguish poisoned samples from clean
samples at the feature level. Experiments on sentiment analysis and offense
detection tasks demonstrate the superiority of DAN, as it substantially
surpasses existing online defense methods in terms of defending performance and
enjoys lower inference costs. Moreover, we show that DAN is also resistant to
adaptive attacks based on feature-level regularization. Our code is available
at https://github.com/lancopku/DAN.
- Abstract(参考訳): 自然言語処理(NLP)モデルはバックドア攻撃に弱いことが知られており、NLPモデルに新たな脅威が生じる。
以前のnlpモデルのオンラインバックドア防御手法は、入力または出力レベルの異常のみに焦点を当てており、それでも適応攻撃に対する脆弱さと高い計算コストに苦しんでいる。
そこで本研究では, 中間機能レベルでのテキスト有毒試料の未熟化を調査するための第一歩を踏み出し, 機能ベースの効率的なオンライン防御手法を提案する。
既存の攻撃方法に関する広範な実験により,有毒なNLPモデルの中間特徴空間における清浄な試料からは程遠いことが明らかとなった。
本研究の目的は, 距離ベース異常スコア(DAN)を用いて, 汚染された試料を特徴量で識別することである。
感情分析と犯罪検知タスクの実験は、既存のオンライン防御手法をはるかに上回り、推論コストの低減を図っているため、DANの優位性を示している。
さらに,DANは特徴レベル正規化に基づく適応攻撃にも耐性があることが示唆された。
私たちのコードはhttps://github.com/lancopku/dan.comで利用可能です。
関連論文リスト
- Reliable Poisoned Sample Detection against Backdoor Attacks Enhanced by Sharpness Aware Minimization [38.957943962546864]
我々は,バニラ学習アルゴリズムではなく,シャープネス・アウェア最小化(SAM)アルゴリズムを用いて1つのモデルを訓練することを提案する。
いくつかのベンチマークデータセットに対する大規模な実験は、弱いバックドア攻撃と強いバックドア攻撃の両方に対して提案手法の信頼性の高い検出性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:35:08Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Confidence-driven Sampling for Backdoor Attacks [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。
既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。
信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文 参考訳(メタデータ) (2023-10-08T18:57:36Z) - ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned
Samples in NLP [29.375957205348115]
本稿では,モデル予測の解釈可能性に着目した,革新的な試験時間有毒サンプル検出フレームワークを提案する。
我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして使用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。
論文 参考訳(メタデータ) (2023-08-04T03:48:28Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Defending Against Backdoor Attacks by Layer-wise Feature Analysis [11.465401472704732]
ディープニューラルネットワーク(DNN)のトレーニングは通常、大量のトレーニングデータと計算リソースを必要とする。
新たな訓練時間攻撃(バックドア攻撃)は、敵の特定トリガーパターンを含む入力サンプルの誤分類を誘導することを目的としている。
臨界層における不審試料と良性試料の特徴差を解析し, 簡易かつ効果的に汚染試料をろ過する方法を提案する。
論文 参考訳(メタデータ) (2023-02-24T17:16:37Z) - RAP: Robustness-Aware Perturbations for Defending against Backdoor
Attacks on NLP Models [29.71136191379715]
本稿では,ロバストネスを意識した摂動に基づく効率的なオンライン防御機構を提案する。
汚染されたサンプルとクリーンなサンプルを区別するために,単語に基づく頑健さを意識した摂動を構築する。
本手法は,既存のオンライン防御手法よりも優れた防御性能と計算コストを実現する。
論文 参考訳(メタデータ) (2021-10-15T03:09:26Z) - Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood
Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。
DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。
我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-20T18:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。