論文の概要: WeDef: Weakly Supervised Backdoor Defense for Text Classification
- arxiv url: http://arxiv.org/abs/2205.11803v1
- Date: Tue, 24 May 2022 05:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 06:48:33.903350
- Title: WeDef: Weakly Supervised Backdoor Defense for Text Classification
- Title(参考訳): WeDef: テキスト分類のためのバックドアディフェンス
- Authors: Lesheng Jin, Zihan Wang, Jingbo Shang
- Abstract要約: 既存のバックドア防御法は、限定的なトリガータイプにのみ有効である。
本稿では,弱教師付きバックドア防御フレームワークWeDefを提案する。
WeDefは一般的なトリガーベースの攻撃に対して有効であることを示す。
- 参考スコア(独自算出の注目度): 48.19967241668793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing backdoor defense methods are only effective for limited trigger
types. To defend different trigger types at once, we start from the
class-irrelevant nature of the poisoning process and propose a novel weakly
supervised backdoor defense framework WeDef. Recent advances in weak
supervision make it possible to train a reasonably accurate text classifier
using only a small number of user-provided, class-indicative seed words. Such
seed words shall be considered independent of the triggers. Therefore, a weakly
supervised text classifier trained by only the poisoned documents without their
labels will likely have no backdoor. Inspired by this observation, in WeDef, we
define the reliability of samples based on whether the predictions of the weak
classifier agree with their labels in the poisoned training set. We further
improve the results through a two-phase sanitization: (1) iteratively refine
the weak classifier based on the reliable samples and (2) train a binary poison
classifier by distinguishing the most unreliable samples from the most reliable
samples. Finally, we train the sanitized model on the samples that the poison
classifier predicts as benign. Extensive experiments show that WeDefis
effective against popular trigger-based attacks (e.g., words, sentences, and
paraphrases), outperforming existing defense methods.
- Abstract(参考訳): 既存のバックドア防御法は、限定的なトリガータイプにのみ有効である。
異なるトリガータイプを一度に防御するために, 汚染プロセスのクラス非関連性から始め, 弱制御型バックドア防御フレームワークWeDefを提案する。
近年の弱監視の進歩により、少数のユーザ提供型、クラス指示型シードワードのみを用いて、合理的に正確なテキスト分類器を訓練することが可能になった。
このようなシードワードは、トリガーとは独立しているとみなされる。
したがって、ラベルのない有毒な文書のみによって訓練された弱い教師付きテキスト分類器にはバックドアがない可能性が高い。
この観察から着想を得たWeDefでは、弱い分類器の予測が有毒トレーニングセットのラベルと一致するかどうかに基づいて、サンプルの信頼性を定義する。
1) 信頼性の高い試料に基づいて弱分類器を反復的に精製し, (2) 最も信頼できない試料を最も信頼性の高い試料と区別して二成分毒分類器を訓練する。
最後に, 毒素分類器が良性であると予測する試料から, 殺菌モデルを訓練する。
大規模な実験により、WeDefisは一般的なトリガーベースの攻撃(例えば、単語、文、パラフレーズ)に対して有効であり、既存の防御方法よりも優れていることが示された。
関連論文リスト
- FCert: Certifiably Robust Few-Shot Classification in the Era of Foundation Models [38.019489232264796]
FCertは、データ中毒攻撃に対する最初の認証された防御法であり、数発の分類である。
1)攻撃なしでの分類精度を維持すること,2)データ中毒攻撃に対する既存の認証された防御能力を上回ること,3)効率的で汎用的なこと,である。
論文 参考訳(メタデータ) (2024-04-12T17:50:40Z) - Diffusion Denoising as a Certified Defense against Clean-label Poisoning [56.04951180983087]
本稿では,市販の拡散モデルを用いて,改ざんしたトレーニングデータを浄化する方法を示す。
7件のクリーンラベル中毒に対する我々の防御を広範囲に検証し、その攻撃成功率を0-16%に抑え、テスト時間の精度は無視できない程度に低下した。
論文 参考訳(メタデータ) (2024-03-18T17:17:07Z) - ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned
Samples in NLP [29.375957205348115]
本稿では,モデル予測の解釈可能性に着目した,革新的な試験時間有毒サンプル検出フレームワークを提案する。
我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして使用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。
論文 参考訳(メタデータ) (2023-08-04T03:48:28Z) - Towards Fair Classification against Poisoning Attacks [52.57443558122475]
攻撃者が少数のサンプルを訓練データに挿入できる毒殺シナリオについて検討する。
本稿では,従来の防犯手法に適合する汎用的かつ理論的に保証された枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-18T00:49:58Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - BFClass: A Backdoor-free Text Classification Framework [21.762274809679692]
そこで本研究では,テキスト分類のためのバックドアレス学習フレームワークであるBFClassを提案する。
BFClassのバックボーンは事前訓練された識別器であり、劣化した入力の各トークンがマスキング言語モデルに置き換えられたかどうかを予測する。
大規模な実験では、BFClassはすべてのトリガーを識別でき、95%の有毒なトレーニングサンプルを非常に限られた誤報で除去し、良質なトレーニングデータでトレーニングされたモデルとほぼ同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-09-22T17:28:21Z) - Poisoned classifiers are not only backdoored, they are fundamentally
broken [84.67778403778442]
一般的に研究されている、分類モデルに対するバックドア中毒攻撃の下で、攻撃者はトレーニングデータのサブセットに小さなトリガーを追加する。
毒を盛った分類器は、引き金を持つ敵のみに弱いと推定されることが多い。
本稿では,このバックドア型分類器の考え方が誤りであることを実証的に示す。
論文 参考訳(メタデータ) (2020-10-18T19:42:44Z) - Poison Attacks against Text Datasets with Conditional Adversarially
Regularized Autoencoder [78.01180944665089]
本稿では,自然言語推論(NLI)とテキスト分類システムにおいて致命的な脆弱性を示す。
我々はNLPモデルに対する「バックドア中毒」攻撃を提示する。
論文 参考訳(メタデータ) (2020-10-06T13:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。