論文の概要: TextGuard: Provable Defense against Backdoor Attacks on Text
Classification
- arxiv url: http://arxiv.org/abs/2311.11225v2
- Date: Sat, 25 Nov 2023 02:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 12:28:39.489152
- Title: TextGuard: Provable Defense against Backdoor Attacks on Text
Classification
- Title(参考訳): TextGuard: テキスト分類によるバックドア攻撃に対する防御
- Authors: Hengzhi Pei, Jinyuan Jia, Wenbo Guo, Bo Li, Dawn Song
- Abstract要約: テキスト分類に対するバックドア攻撃に対する最初の証明可能な防御であるTextGuardを提案する。
特にTextGuardは、(バックドアされた)トレーニングデータをサブトレーニングセットに分割し、各トレーニング文をサブ文に分割する。
本評価では,3つのベンチマークテキスト分類タスクにおけるTextGuardの有効性を示す。
- 参考スコア(独自算出の注目度): 83.94014844485291
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Backdoor attacks have become a major security threat for deploying machine
learning models in security-critical applications. Existing research endeavors
have proposed many defenses against backdoor attacks. Despite demonstrating
certain empirical defense efficacy, none of these techniques could provide a
formal and provable security guarantee against arbitrary attacks. As a result,
they can be easily broken by strong adaptive attacks, as shown in our
evaluation. In this work, we propose TextGuard, the first provable defense
against backdoor attacks on text classification. In particular, TextGuard first
divides the (backdoored) training data into sub-training sets, achieved by
splitting each training sentence into sub-sentences. This partitioning ensures
that a majority of the sub-training sets do not contain the backdoor trigger.
Subsequently, a base classifier is trained from each sub-training set, and
their ensemble provides the final prediction. We theoretically prove that when
the length of the backdoor trigger falls within a certain threshold, TextGuard
guarantees that its prediction will remain unaffected by the presence of the
triggers in training and testing inputs. In our evaluation, we demonstrate the
effectiveness of TextGuard on three benchmark text classification tasks,
surpassing the certification accuracy of existing certified defenses against
backdoor attacks. Furthermore, we propose additional strategies to enhance the
empirical performance of TextGuard. Comparisons with state-of-the-art empirical
defenses validate the superiority of TextGuard in countering multiple backdoor
attacks. Our code and data are available at
https://github.com/AI-secure/TextGuard.
- Abstract(参考訳): バックドア攻撃は、セキュリティクリティカルなアプリケーションに機械学習モデルをデプロイする上で、大きなセキュリティ脅威となっている。
既存の研究はバックドア攻撃に対する多くの防御を提案している。
特定の実証的な防御効果を示すにもかかわらず、これらの技術は任意の攻撃に対して形式的で証明可能なセキュリティ保証を提供することはできない。
その結果,本評価で示すように,強力な適応攻撃によって容易に破られる。
本稿では,テキスト分類におけるバックドア攻撃に対する最初の防御手法であるtextguardを提案する。
特にTextGuardは、まず(バックドア付き)トレーニングデータをサブトレーニングセットに分割し、各トレーニング文をサブ文に分割する。
このパーティショニングにより、サブトレーニングセットの大部分がバックドアトリガを含まないことが保証される。
その後、各サブトレーニングセットからベース分類器を訓練し、そのアンサンブルが最終予測を提供する。
理論的には、バックドアトリガの長さが一定のしきい値に収まると、TextGuardは、トレーニングやテストにおけるトリガーの存在によって、その予測が影響を受けないことを保証します。
本評価では,3つのベンチマークテキスト分類タスクにおけるTextGuardの有効性を実証し,バックドア攻撃に対する既存の認証防御の認証精度を上回った。
さらに,TextGuardの実証性能を高めるための新たな戦略を提案する。
最先端の実証的防御との比較は、複数のバックドア攻撃に対するTextGuardの優位性を検証する。
私たちのコードとデータはhttps://github.com/ai-secure/textguardで入手できます。
関連論文リスト
- Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Detecting Backdoors in Deep Text Classifiers [43.36440869257781]
本稿では,テキスト分類モデルに対するバックドア攻撃を一般化する,最初の堅牢な防御機構を提案する。
我々の技術は、データ中毒や重毒など、最先端のバックドア攻撃に対する防御に極めて正確です。
論文 参考訳(メタデータ) (2022-10-11T07:48:03Z) - MM-BD: Post-Training Detection of Backdoor Attacks with Arbitrary
Backdoor Pattern Types Using a Maximum Margin Statistic [27.62279831135902]
本稿では,任意の種類のバックドア埋め込みによるバックドア攻撃を検出するポストトレーニングディフェンスを提案する。
我々の検出器は正当なクリーンなサンプルを一切必要とせず、任意の数のソースクラスでバックドア攻撃を効率的に検出することができる。
論文 参考訳(メタデータ) (2022-05-13T21:32:24Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - ONION: A Simple and Effective Defense Against Textual Backdoor Attacks [91.83014758036575]
バックドア攻撃は、ディープニューラルネットワーク(DNN)に対する創発的な訓練時間の脅威である
本論文では,ONION という,シンプルで効果的なテキストバックドア・ディフェンスを提案する。
実験では,5種類のバックドア攻撃に対するBiLSTMとBERTの防御効果を示す。
論文 参考訳(メタデータ) (2020-11-20T12:17:21Z) - Backdoor Attacks and Countermeasures on Deep Learning: A Comprehensive
Review [40.36824357892676]
この研究は、コミュニティにバックドア攻撃のタイムリーなレビューとディープラーニング対策を提供する。
攻撃者の能力と機械学習パイプラインの影響を受けたステージにより、攻撃面は広く認識される。
対策は、ブラインド・バックドア・インスペクション、オフライン・バックドア・インスペクション、オンライン・バックドア・インスペクション、ポスト・バックドア・インスペクションの4つの一般的なクラスに分類される。
論文 参考訳(メタデータ) (2020-07-21T12:49:12Z) - On Certifying Robustness against Backdoor Attacks via Randomized
Smoothing [74.79764677396773]
ランダム化平滑化法(ランダム化平滑化)と呼ばれる最近の手法を用いて,バックドア攻撃に対するロバスト性検証の有効性と有効性を検討した。
本研究は, バックドア攻撃に対するロバスト性を証明するために, ランダムな平滑化を用いた理論的実現可能性を示すものである。
既存の無作為な平滑化手法は、バックドア攻撃に対する防御効果に限界がある。
論文 参考訳(メタデータ) (2020-02-26T19:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。