論文の概要: Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review
- arxiv url: http://arxiv.org/abs/2309.06055v5
- Date: Wed, 04 Dec 2024 05:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 18:17:58.837016
- Title: Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review
- Title(参考訳): 自然言語処理モデルにおけるバックドア攻撃と対策:包括的セキュリティレビュー
- Authors: Pengzhou Cheng, Zongru Wu, Wei Du, Haodong Zhao, Wei Lu, Gongshen Liu,
- Abstract要約: 言語モデル(LM)は、現実世界のアプリケーションでますます人気が高まっている。
バックドア攻撃は、トリガーが存在するときに悪意のある動作が起動される深刻な脅威である。
この研究は、NLPコミュニティにバックドア攻撃と対策のタイムリーなレビューを提供することを目的としている。
- 参考スコア(独自算出の注目度): 15.179940846141873
- License:
- Abstract: Language Models (LMs) are becoming increasingly popular in real-world applications. Outsourcing model training and data hosting to third-party platforms has become a standard method for reducing costs. In such a situation, the attacker can manipulate the training process or data to inject a backdoor into models. Backdoor attacks are a serious threat where malicious behavior is activated when triggers are present, otherwise, the model operates normally. However, there is still no systematic and comprehensive review of LMs from the attacker's capabilities and purposes on different backdoor attack surfaces. Moreover, there is a shortage of analysis and comparison of the diverse emerging backdoor countermeasures. Therefore, this work aims to provide the NLP community with a timely review of backdoor attacks and countermeasures. According to the attackers' capability and affected stage of the LMs, the attack surfaces are formalized into four categorizations: attacking the pre-trained model with fine-tuning (APMF) or parameter-efficient fine-tuning (APMP), attacking the final model with training (AFMT), and attacking Large Language Models (ALLM). Thus, attacks under each categorization are combed. The countermeasures are categorized into two general classes: sample inspection and model inspection. Thus, we review countermeasures and analyze their advantages and disadvantages. Also, we summarize the benchmark datasets and provide comparable evaluations for representative attacks and defenses. Drawing the insights from the review, we point out the crucial areas for future research on the backdoor, especially soliciting more efficient and practical countermeasures.
- Abstract(参考訳): 言語モデル(LM)は、現実世界のアプリケーションでますます人気が高まっている。
サードパーティプラットフォームへのアウトソーシングモデルトレーニングとデータホスティングは、コスト削減の標準的な方法になっています。
このような状況下で、攻撃者はトレーニングプロセスやデータを操作してモデルにバックドアを注入することができる。
バックドア攻撃は、トリガーが存在するときに悪意のある動作が起動される深刻な脅威であり、そうでなければ、モデルが正常に動作する。
しかしながら、攻撃者の能力と異なるバックドア攻撃面に対する目的から、LMの体系的かつ包括的なレビューは未だ行われていない。
さらに、多様なバックドア対策の分析と比較が不足している。
そこで本研究は,NLPコミュニティにバックドア攻撃と対策のタイムリーなレビューを提供することを目的としている。
攻撃者の能力とLMの影響を受けたステージにより、攻撃面は4つの分類に分類される: 訓練済みモデルを微調整(APMF)で攻撃するか、パラメータ効率の良い微調整(APMP)で攻撃し、最終モデルを訓練(AFMT)で攻撃し、大規模言語モデル(ALLM)を攻撃する。
これにより、各カテゴリの攻撃が組み合わされる。
対策は、サンプル検査とモデル検査の2つの一般的なクラスに分類される。
そこで我々は,対策を見直し,そのメリットと欠点を分析した。
また、ベンチマークデータセットを要約し、代表的攻撃や防御に匹敵する評価を提供する。
レビューから得られた知見を引用して,バックドアの今後の研究,特により効率的で実践的な対策を要請する上で重要な領域を指摘する。
関連論文リスト
- A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures [28.604839267949114]
人間の言語理解と複雑な問題解決のギャップを埋める大規模言語モデル(LLM)は、いくつかのNLPタスクで最先端のパフォーマンスを達成する。
研究は、言語モデルは潜在的なセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすいことを実証している。
本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
論文 参考訳(メタデータ) (2024-06-10T23:54:21Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - An Overview of Backdoor Attacks Against Deep Neural Networks and
Possible Defences [33.415612094924654]
本研究の目的は,これまでに提案された攻撃・防衛の多種多様さを概観することである。
バックドア攻撃では、攻撃者はトレーニングデータを破損し、テスト時に誤動作を誘発する。
テストタイムエラーは、適切に作成された入力サンプルに対応するトリガーイベントの存在下でのみ起動される。
論文 参考訳(メタデータ) (2021-11-16T13:06:31Z) - WaNet -- Imperceptible Warping-based Backdoor Attack [20.289889150949836]
サードパーティーのモデルは、通常の状況でうまく機能するようにトレーニング中に毒を盛るが、トリガーパターンが現れると悪質に振る舞う。
本稿では,サードパーティモデルに対してワーピングベースのトリガーを用いた攻撃手法を提案する。
提案したバックドアは、人間の検査試験における従来の方法よりも広いマージンで優れており、そのステルス性を証明している。
論文 参考訳(メタデータ) (2021-02-20T15:25:36Z) - Backdoor Attacks and Countermeasures on Deep Learning: A Comprehensive
Review [40.36824357892676]
この研究は、コミュニティにバックドア攻撃のタイムリーなレビューとディープラーニング対策を提供する。
攻撃者の能力と機械学習パイプラインの影響を受けたステージにより、攻撃面は広く認識される。
対策は、ブラインド・バックドア・インスペクション、オフライン・バックドア・インスペクション、オンライン・バックドア・インスペクション、ポスト・バックドア・インスペクションの4つの一般的なクラスに分類される。
論文 参考訳(メタデータ) (2020-07-21T12:49:12Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。