論文の概要: A Survey on Backdoor Attack and Defense in Natural Language Processing
- arxiv url: http://arxiv.org/abs/2211.11958v1
- Date: Tue, 22 Nov 2022 02:35:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 18:47:16.775189
- Title: A Survey on Backdoor Attack and Defense in Natural Language Processing
- Title(参考訳): 自然言語処理におけるバックドア攻撃と防御に関する調査
- Authors: Xuan Sheng, Zhaoyang Han, Piji Li, Xiangmao Chang
- Abstract要約: NLP分野におけるバックドア攻撃と防御の総合的な検討を行う。
ベンチマークデータセットを要約し、バックドア攻撃を防ぐために信頼できるシステムを設計するためのオープンな問題を指摘した。
- 参考スコア(独自算出の注目度): 18.29835890570319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning is becoming increasingly popular in real-life applications,
especially in natural language processing (NLP). Users often choose training
outsourcing or adopt third-party data and models due to data and computation
resources being limited. In such a situation, training data and models are
exposed to the public. As a result, attackers can manipulate the training
process to inject some triggers into the model, which is called backdoor
attack. Backdoor attack is quite stealthy and difficult to be detected because
it has little inferior influence on the model's performance for the clean
samples. To get a precise grasp and understanding of this problem, in this
paper, we conduct a comprehensive review of backdoor attacks and defenses in
the field of NLP. Besides, we summarize benchmark datasets and point out the
open issues to design credible systems to defend against backdoor attacks.
- Abstract(参考訳): ディープラーニングは、現実のアプリケーション、特に自然言語処理(nlp)で人気が高まっている。
ユーザは多くの場合、トレーニングアウトソーシングを選択したり、データや計算リソースが限られているため、サードパーティのデータやモデルを採用する。
このような状況下では、トレーニングデータとモデルが一般に公開される。
その結果、攻撃者はトレーニングプロセスを操作してモデルにいくつかのトリガーを注入することができる。
バックドア攻撃は非常にステルス的であり、クリーンサンプルに対するモデルの性能に劣る影響が少ないため検出が困難である。
この問題を正確に把握し理解するために,本稿ではnlpの分野におけるバックドア攻撃と防御の包括的レビューを行う。
さらに、ベンチマークデータセットを要約し、バックドア攻撃から守るために信頼できるシステムを設計するためのオープンイシューを指摘する。
関連論文リスト
- Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - NCL: Textual Backdoor Defense Using Noise-augmented Contrastive Learning [14.537250979495596]
本研究では,テキストバックドア攻撃に対する防音学習フレームワークを提案する。
実験では,3種類のテキストバックドア攻撃を防御する手法の有効性を実証し,先行研究よりも優れていた。
論文 参考訳(メタデータ) (2023-03-03T07:07:04Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Excess Capacity and Backdoor Poisoning [11.383869751239166]
バックドアデータ中毒攻撃は、攻撃者がいくつかの透かし、ラベルのついたトレーニング例をトレーニングセットに注入する敵攻撃である。
本稿では,分類問題に対するバックドアデータ中毒攻撃を議論できる形式的理論的枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-02T03:04:38Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。