論文の概要: Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review
- arxiv url: http://arxiv.org/abs/2309.06055v4
- Date: Wed, 8 Nov 2023 07:53:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 06:43:22.351991
- Title: Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review
- Title(参考訳): 自然言語処理モデルにおけるバックドア攻撃と対策:包括的セキュリティレビュー
- Authors: Pengzhou Cheng, Zongru Wu, Wei Du, Haodong Zhao, Wei Lu, Gongshen Liu,
- Abstract要約: サードパーティのデータやモデルを応用することは、NLPにおける言語モデリングの新しいパラダイムとなっている。
バックドア攻撃は 特定のトリガーを通して 予測された行動を示す モデルを誘導できる
セキュリティ上の課題、攻撃者の能力、目的を反映した、体系的で包括的なレビューはまだない。
- 参考スコア(独自算出の注目度): 15.179940846141873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Applicating third-party data and models has become a new paradigm for language modeling in NLP, which also introduces some potential security vulnerabilities because attackers can manipulate the training process and data source. In this case, backdoor attacks can induce the model to exhibit expected behaviors through specific triggers and have little inferior influence on primitive tasks. Hence, it could have dire consequences, especially considering that the backdoor attack surfaces are broad. However, there is still no systematic and comprehensive review to reflect the security challenges, attacker's capabilities, and purposes according to the attack surface. Moreover, there is a shortage of analysis and comparison of the diverse emerging backdoor countermeasures in this context. In this paper, we conduct a timely review of backdoor attacks and countermeasures to sound the red alarm for the NLP security community. According to the affected stage of the machine learning pipeline, the attack surfaces are recognized to be wide and then formalized into three categorizations: attacking pre-trained model with fine-tuning (APMF) or parameter-efficient tuning (APMP), and attacking final model with training (AFMT). Thus, attacks under each categorization are combed. The countermeasures are categorized into two general classes: sample inspection and model inspection. Overall, the research on the defense side is far behind the attack side, and there is no single defense that can prevent all types of backdoor attacks. An attacker can intelligently bypass existing defenses with a more invisible attack. Drawing the insights from the systematic review, we also present crucial areas for future research on the backdoor, such as empirical security evaluations on large language models, and in particular, more efficient and practical countermeasures are solicited.
- Abstract(参考訳): サードパーティのデータとモデルを応用することは、NLPにおける言語モデリングの新しいパラダイムとなり、攻撃者がトレーニングプロセスとデータソースを操作できるため、潜在的なセキュリティ脆弱性も導入されている。
この場合、バックドアアタックは特定のトリガーを通じて期待される振る舞いを示すモデルを誘導し、プリミティブなタスクにはほとんど影響しない。
したがって、特にバックドアの攻撃面が広いことを考えると、これは恐ろしい結果をもたらす可能性がある。
しかし、攻撃面に応じたセキュリティ上の課題、攻撃者の能力、目的を反映する体系的かつ包括的なレビューはいまだに存在しない。
さらに、この文脈における多様なバックドア対策の分析と比較が不足している。
本報告では,NLPセキュリティコミュニティのレッドアラームを鳴らすため,バックドア攻撃と対策のタイムリーなレビューを行う。
機械学習パイプラインの影響を受けるステージによると、攻撃面は広く認識され、その後、微調整(APMF)による事前訓練されたモデル攻撃(APMP)と、トレーニング(AFMT)による最終モデル攻撃(AFMT)の3つのカテゴリに分類される。
これにより、各カテゴリの攻撃が組み合わされる。
対策は、サンプル検査とモデル検査の2つの一般的なクラスに分類される。
全体として、防衛側の研究は攻撃側よりはるかに遅れており、あらゆる種類のバックドア攻撃を防げる単一の防御は存在しない。
攻撃者は、より見えない攻撃で既存の防御を知的にバイパスすることができる。
本研究は,大規模言語モデルにおける実証的セキュリティ評価,特に,より効率的で実践的な対策を要請するなど,バックドアに関する今後の研究にとって重要な領域を提示する。
関連論文リスト
- A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures [28.604839267949114]
人間の言語理解と複雑な問題解決のギャップを埋める大規模言語モデル(LLM)は、いくつかのNLPタスクで最先端のパフォーマンスを達成する。
研究は、言語モデルは潜在的なセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすいことを実証している。
本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
論文 参考訳(メタデータ) (2024-06-10T23:54:21Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - An Overview of Backdoor Attacks Against Deep Neural Networks and
Possible Defences [33.415612094924654]
本研究の目的は,これまでに提案された攻撃・防衛の多種多様さを概観することである。
バックドア攻撃では、攻撃者はトレーニングデータを破損し、テスト時に誤動作を誘発する。
テストタイムエラーは、適切に作成された入力サンプルに対応するトリガーイベントの存在下でのみ起動される。
論文 参考訳(メタデータ) (2021-11-16T13:06:31Z) - WaNet -- Imperceptible Warping-based Backdoor Attack [20.289889150949836]
サードパーティーのモデルは、通常の状況でうまく機能するようにトレーニング中に毒を盛るが、トリガーパターンが現れると悪質に振る舞う。
本稿では,サードパーティモデルに対してワーピングベースのトリガーを用いた攻撃手法を提案する。
提案したバックドアは、人間の検査試験における従来の方法よりも広いマージンで優れており、そのステルス性を証明している。
論文 参考訳(メタデータ) (2021-02-20T15:25:36Z) - Backdoor Attacks and Countermeasures on Deep Learning: A Comprehensive
Review [40.36824357892676]
この研究は、コミュニティにバックドア攻撃のタイムリーなレビューとディープラーニング対策を提供する。
攻撃者の能力と機械学習パイプラインの影響を受けたステージにより、攻撃面は広く認識される。
対策は、ブラインド・バックドア・インスペクション、オフライン・バックドア・インスペクション、オンライン・バックドア・インスペクション、ポスト・バックドア・インスペクションの4つの一般的なクラスに分類される。
論文 参考訳(メタデータ) (2020-07-21T12:49:12Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。