論文の概要: BFClass: A Backdoor-free Text Classification Framework
- arxiv url: http://arxiv.org/abs/2109.10855v1
- Date: Wed, 22 Sep 2021 17:28:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 14:57:32.745184
- Title: BFClass: A Backdoor-free Text Classification Framework
- Title(参考訳): bfclass:バックドアフリーなテキスト分類フレームワーク
- Authors: Zichao Li, Dheeraj Mekala, Chengyu Dong, Jingbo Shang
- Abstract要約: そこで本研究では,テキスト分類のためのバックドアレス学習フレームワークであるBFClassを提案する。
BFClassのバックボーンは事前訓練された識別器であり、劣化した入力の各トークンがマスキング言語モデルに置き換えられたかどうかを予測する。
大規模な実験では、BFClassはすべてのトリガーを識別でき、95%の有毒なトレーニングサンプルを非常に限られた誤報で除去し、良質なトレーニングデータでトレーニングされたモデルとほぼ同等のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 21.762274809679692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attack introduces artificial vulnerabilities into the model by
poisoning a subset of the training data via injecting triggers and modifying
labels. Various trigger design strategies have been explored to attack text
classifiers, however, defending such attacks remains an open problem. In this
work, we propose BFClass, a novel efficient backdoor-free training framework
for text classification. The backbone of BFClass is a pre-trained discriminator
that predicts whether each token in the corrupted input was replaced by a
masked language model. To identify triggers, we utilize this discriminator to
locate the most suspicious token from each training sample and then distill a
concise set by considering their association strengths with particular labels.
To recognize the poisoned subset, we examine the training samples with these
identified triggers as the most suspicious token, and check if removing the
trigger will change the poisoned model's prediction. Extensive experiments
demonstrate that BFClass can identify all the triggers, remove 95% poisoned
training samples with very limited false alarms, and achieve almost the same
performance as the models trained on the benign training data.
- Abstract(参考訳): Backdoor攻撃は、トレーニングデータのサブセットをインジェクションしてラベルを変更することで、モデルに人工的な脆弱性を導入する。
テキスト分類器を攻撃するための様々なトリガー設計戦略が検討されているが、そのような攻撃を防御することは未解決の問題である。
本研究では,テキスト分類のための新しいバックドアフリーな学習フレームワークbfclassを提案する。
BFClassのバックボーンは事前訓練された識別器であり、劣化した入力の各トークンがマスク付き言語モデルに置き換えられたかどうかを予測する。
トリガーを識別するために、この識別器を用いて各トレーニングサンプルから最も疑わしいトークンを識別し、特定のラベルとの関連性を考慮し、簡潔なセットを蒸留する。
毒付き部分集合を認識するために,これらの特定トリガを最も疑わしいトークンとしてトレーニングサンプルを調べ,毒付きモデルの予測を変更するかどうかをチェックする。
広範な実験により、bfclassはすべてのトリガーを識別でき、95%の有毒なトレーニングサンプルを極めて限定的な誤報で取り除き、良質なトレーニングデータでトレーニングされたモデルとほぼ同等の性能を達成できることが示されている。
関連論文リスト
- Backdoor Defense through Self-Supervised and Generative Learning [0.0]
このようなデータのトレーニングは、選択されたテストサンプルに悪意のある推論を引き起こすバックドアを注入する。
本稿では,自己教師付き表現空間におけるクラスごとの分布生成モデルに基づくアプローチを提案する。
どちらの場合も、クラスごとの生成モデルにより、有毒なデータを検出し、データセットをクリーン化することができます。
論文 参考訳(メタデータ) (2024-09-02T11:40:01Z) - Wicked Oddities: Selectively Poisoning for Effective Clean-Label Backdoor Attacks [11.390175856652856]
クリーンラベル攻撃は、毒性のあるデータのラベルを変更することなく攻撃を行うことができる、よりステルスなバックドア攻撃である。
本研究は,攻撃成功率を高めるために,標的クラス内の少数の訓練サンプルを選択的に毒殺する方法について検討した。
私たちの脅威モデルは、サードパーティのデータセットで機械学習モデルをトレーニングする上で深刻な脅威となる。
論文 参考訳(メタデータ) (2024-07-15T15:38:21Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Training set cleansing of backdoor poisoning by self-supervised
representation learning [0.0]
バックドアまたはトロイの木馬攻撃は、ディープニューラルネットワーク(DNN)に対するデータ中毒攻撃の重要なタイプである
教師付きトレーニングは, バックドアパターンと関連するターゲットクラスとの間に, 通常の特徴と真の起源のクラスとの間により強い関連性を持つことが示唆された。
そこで本研究では,教師なし表現学習を用いて,バックドアポゾンによるトレーニングサンプルの強調を回避し,同じクラスのサンプルに類似した特徴埋め込みを学習することを提案する。
論文 参考訳(メタデータ) (2022-10-19T03:29:58Z) - Towards Fair Classification against Poisoning Attacks [52.57443558122475]
攻撃者が少数のサンプルを訓練データに挿入できる毒殺シナリオについて検討する。
本稿では,従来の防犯手法に適合する汎用的かつ理論的に保証された枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-18T00:49:58Z) - WeDef: Weakly Supervised Backdoor Defense for Text Classification [48.19967241668793]
既存のバックドア防御法は、限定的なトリガータイプにのみ有効である。
本稿では,弱教師付きバックドア防御フレームワークWeDefを提案する。
WeDefは一般的なトリガーベースの攻撃に対して有効であることを示す。
論文 参考訳(メタデータ) (2022-05-24T05:53:11Z) - Narcissus: A Practical Clean-Label Backdoor Attack with Limited
Information [22.98039177091884]
クリーンラベル」バックドア攻撃には、トレーニングセット全体の知識が必要である。
本稿では,対象クラスの代表例の知識のみに基づいて,クリーンラベルバックドア攻撃をマウントするアルゴリズムを提案する。
私たちの攻撃は、物理的な世界にトリガーが存在する場合でも、データセットやモデル間でうまく機能します。
論文 参考訳(メタデータ) (2022-04-11T16:58:04Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - Poisoned classifiers are not only backdoored, they are fundamentally
broken [84.67778403778442]
一般的に研究されている、分類モデルに対するバックドア中毒攻撃の下で、攻撃者はトレーニングデータのサブセットに小さなトリガーを追加する。
毒を盛った分類器は、引き金を持つ敵のみに弱いと推定されることが多い。
本稿では,このバックドア型分類器の考え方が誤りであることを実証的に示す。
論文 参考訳(メタデータ) (2020-10-18T19:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。