論文の概要: A Survey on Backdoor Attack and Defense in Natural Language Processing
- arxiv url: http://arxiv.org/abs/2211.11958v1
- Date: Tue, 22 Nov 2022 02:35:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 18:47:16.775189
- Title: A Survey on Backdoor Attack and Defense in Natural Language Processing
- Title(参考訳): 自然言語処理におけるバックドア攻撃と防御に関する調査
- Authors: Xuan Sheng, Zhaoyang Han, Piji Li, Xiangmao Chang
- Abstract要約: NLP分野におけるバックドア攻撃と防御の総合的な検討を行う。
ベンチマークデータセットを要約し、バックドア攻撃を防ぐために信頼できるシステムを設計するためのオープンな問題を指摘した。
- 参考スコア(独自算出の注目度): 18.29835890570319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning is becoming increasingly popular in real-life applications,
especially in natural language processing (NLP). Users often choose training
outsourcing or adopt third-party data and models due to data and computation
resources being limited. In such a situation, training data and models are
exposed to the public. As a result, attackers can manipulate the training
process to inject some triggers into the model, which is called backdoor
attack. Backdoor attack is quite stealthy and difficult to be detected because
it has little inferior influence on the model's performance for the clean
samples. To get a precise grasp and understanding of this problem, in this
paper, we conduct a comprehensive review of backdoor attacks and defenses in
the field of NLP. Besides, we summarize benchmark datasets and point out the
open issues to design credible systems to defend against backdoor attacks.
- Abstract(参考訳): ディープラーニングは、現実のアプリケーション、特に自然言語処理(nlp)で人気が高まっている。
ユーザは多くの場合、トレーニングアウトソーシングを選択したり、データや計算リソースが限られているため、サードパーティのデータやモデルを採用する。
このような状況下では、トレーニングデータとモデルが一般に公開される。
その結果、攻撃者はトレーニングプロセスを操作してモデルにいくつかのトリガーを注入することができる。
バックドア攻撃は非常にステルス的であり、クリーンサンプルに対するモデルの性能に劣る影響が少ないため検出が困難である。
この問題を正確に把握し理解するために,本稿ではnlpの分野におけるバックドア攻撃と防御の包括的レビューを行う。
さらに、ベンチマークデータセットを要約し、バックドア攻撃から守るために信頼できるシステムを設計するためのオープンイシューを指摘する。
関連論文リスト
- Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Large Language Models are Good Attackers: Efficient and Stealthy Textual Backdoor Attacks [10.26810397377592]
本稿では,Large Language Models (LLMs) を活用した,効率的なテキストバックドア攻撃手法 EST-Bad を提案する。
私たちのEST-Badには、モデル固有の欠陥をトリガーとして最適化すること、LSMで密かにトリガーを注入すること、バックドアインジェクションの最も影響の大きいサンプルを慎重に選択することの3つの戦略が含まれています。
論文 参考訳(メタデータ) (2024-08-21T12:50:23Z) - DLP: towards active defense against backdoor attacks with decoupled learning process [2.686336957004475]
バックドア攻撃に対する防御のための一般的な訓練パイプラインを提案する。
トレーニング中, 清潔なサブセットと有毒なサブセットで異なる学習行動を示すモデルを示す。
提案手法の有効性は,様々なバックドア攻撃やデータセットにまたがる数多くの実験で実証されている。
論文 参考訳(メタデータ) (2024-06-18T23:04:38Z) - A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures [28.604839267949114]
人間の言語理解と複雑な問題解決のギャップを埋める大規模言語モデル(LLM)は、いくつかのNLPタスクで最先端のパフォーマンスを達成する。
研究は、言語モデルは潜在的なセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすいことを実証している。
本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
論文 参考訳(メタデータ) (2024-06-10T23:54:21Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review [15.179940846141873]
サードパーティのデータやモデルを応用することは、NLPにおける言語モデリングの新しいパラダイムとなっている。
バックドア攻撃は 特定のトリガーを通して 予測された行動を示す モデルを誘導できる
セキュリティ上の課題、攻撃者の能力、目的を反映した、体系的で包括的なレビューはまだない。
論文 参考訳(メタデータ) (2023-09-12T08:48:38Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。