論文の概要: Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review
- arxiv url: http://arxiv.org/abs/2309.06055v5
- Date: Wed, 04 Dec 2024 05:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 18:17:58.837016
- Title: Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review
- Title(参考訳): 自然言語処理モデルにおけるバックドア攻撃と対策:包括的セキュリティレビュー
- Authors: Pengzhou Cheng, Zongru Wu, Wei Du, Haodong Zhao, Wei Lu, Gongshen Liu,
- Abstract要約: 言語モデル(LM)は、現実世界のアプリケーションでますます人気が高まっている。
バックドア攻撃は、トリガーが存在するときに悪意のある動作が起動される深刻な脅威である。
この研究は、NLPコミュニティにバックドア攻撃と対策のタイムリーなレビューを提供することを目的としている。
- 参考スコア(独自算出の注目度): 15.179940846141873
- License:
- Abstract: Language Models (LMs) are becoming increasingly popular in real-world applications. Outsourcing model training and data hosting to third-party platforms has become a standard method for reducing costs. In such a situation, the attacker can manipulate the training process or data to inject a backdoor into models. Backdoor attacks are a serious threat where malicious behavior is activated when triggers are present, otherwise, the model operates normally. However, there is still no systematic and comprehensive review of LMs from the attacker's capabilities and purposes on different backdoor attack surfaces. Moreover, there is a shortage of analysis and comparison of the diverse emerging backdoor countermeasures. Therefore, this work aims to provide the NLP community with a timely review of backdoor attacks and countermeasures. According to the attackers' capability and affected stage of the LMs, the attack surfaces are formalized into four categorizations: attacking the pre-trained model with fine-tuning (APMF) or parameter-efficient fine-tuning (APMP), attacking the final model with training (AFMT), and attacking Large Language Models (ALLM). Thus, attacks under each categorization are combed. The countermeasures are categorized into two general classes: sample inspection and model inspection. Thus, we review countermeasures and analyze their advantages and disadvantages. Also, we summarize the benchmark datasets and provide comparable evaluations for representative attacks and defenses. Drawing the insights from the review, we point out the crucial areas for future research on the backdoor, especially soliciting more efficient and practical countermeasures.
- Abstract(参考訳): 言語モデル(LM)は、現実世界のアプリケーションでますます人気が高まっている。
サードパーティプラットフォームへのアウトソーシングモデルトレーニングとデータホスティングは、コスト削減の標準的な方法になっています。
このような状況下で、攻撃者はトレーニングプロセスやデータを操作してモデルにバックドアを注入することができる。
バックドア攻撃は、トリガーが存在するときに悪意のある動作が起動される深刻な脅威であり、そうでなければ、モデルが正常に動作する。
しかしながら、攻撃者の能力と異なるバックドア攻撃面に対する目的から、LMの体系的かつ包括的なレビューは未だ行われていない。
さらに、多様なバックドア対策の分析と比較が不足している。
そこで本研究は,NLPコミュニティにバックドア攻撃と対策のタイムリーなレビューを提供することを目的としている。
攻撃者の能力とLMの影響を受けたステージにより、攻撃面は4つの分類に分類される: 訓練済みモデルを微調整(APMF)で攻撃するか、パラメータ効率の良い微調整(APMP)で攻撃し、最終モデルを訓練(AFMT)で攻撃し、大規模言語モデル(ALLM)を攻撃する。
これにより、各カテゴリの攻撃が組み合わされる。
対策は、サンプル検査とモデル検査の2つの一般的なクラスに分類される。
そこで我々は,対策を見直し,そのメリットと欠点を分析した。
また、ベンチマークデータセットを要約し、代表的攻撃や防御に匹敵する評価を提供する。
レビューから得られた知見を引用して,バックドアの今後の研究,特により効率的で実践的な対策を要請する上で重要な領域を指摘する。
関連論文リスト
- Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - A Survey of Recent Backdoor Attacks and Defenses in Large Language Models [28.604839267949114]
人間の言語理解と複雑な問題解決のギャップを埋める大規模言語モデル(LLM)は、いくつかのNLPタスクで最先端のパフォーマンスを達成する。
研究は、言語モデルは潜在的なセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすいことを実証している。
本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
論文 参考訳(メタデータ) (2024-06-10T23:54:21Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - On the Vulnerability of Backdoor Defenses for Federated Learning [8.345632941376673]
Federated Learning(FL)は、クライアントのデータを共有することなく、グローバルモデルの共同トレーニングを可能にする、人気のある分散機械学習パラダイムである。
本稿では,現在の防衛機構が,フェデレートラーニングによるバックドアの脅威を真に中和するかどうかを考察する。
本稿では,新たなバックドア攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-01-19T17:02:02Z) - A Survey on Backdoor Attack and Defense in Natural Language Processing [18.29835890570319]
NLP分野におけるバックドア攻撃と防御の総合的な検討を行う。
ベンチマークデータセットを要約し、バックドア攻撃を防ぐために信頼できるシステムを設計するためのオープンな問題を指摘した。
論文 参考訳(メタデータ) (2022-11-22T02:35:12Z) - Backdoor Attacks on Crowd Counting [63.90533357815404]
クラウドカウント(Crowd counting)は、シーンイメージ内の人数を推定する回帰タスクである。
本稿では,深層学習に基づくクラウドカウントモデルのバックドア攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2022-07-12T16:17:01Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Backdoor Attacks and Countermeasures on Deep Learning: A Comprehensive
Review [40.36824357892676]
この研究は、コミュニティにバックドア攻撃のタイムリーなレビューとディープラーニング対策を提供する。
攻撃者の能力と機械学習パイプラインの影響を受けたステージにより、攻撃面は広く認識される。
対策は、ブラインド・バックドア・インスペクション、オフライン・バックドア・インスペクション、オンライン・バックドア・インスペクション、ポスト・バックドア・インスペクションの4つの一般的なクラスに分類される。
論文 参考訳(メタデータ) (2020-07-21T12:49:12Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。