論文の概要: RAP: Robustness-Aware Perturbations for Defending against Backdoor
Attacks on NLP Models
- arxiv url: http://arxiv.org/abs/2110.07831v1
- Date: Fri, 15 Oct 2021 03:09:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 03:54:26.882316
- Title: RAP: Robustness-Aware Perturbations for Defending against Backdoor
Attacks on NLP Models
- Title(参考訳): RAP:NLPモデルにおけるバックドア攻撃防止のためのロバストネスを考慮した妨害
- Authors: Wenkai Yang, Yankai Lin, Peng Li, Jie Zhou, Xu Sun
- Abstract要約: 本稿では,ロバストネスを意識した摂動に基づく効率的なオンライン防御機構を提案する。
汚染されたサンプルとクリーンなサンプルを区別するために,単語に基づく頑健さを意識した摂動を構築する。
本手法は,既存のオンライン防御手法よりも優れた防御性能と計算コストを実現する。
- 参考スコア(独自算出の注目度): 29.71136191379715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks, which maliciously control a well-trained model's outputs of
the instances with specific triggers, are recently shown to be serious threats
to the safety of reusing deep neural networks (DNNs). In this work, we propose
an efficient online defense mechanism based on robustness-aware perturbations.
Specifically, by analyzing the backdoor training process, we point out that
there exists a big gap of robustness between poisoned and clean samples.
Motivated by this observation, we construct a word-based robustness-aware
perturbation to distinguish poisoned samples from clean samples to defend
against the backdoor attacks on natural language processing (NLP) models.
Moreover, we give a theoretical analysis about the feasibility of our
robustness-aware perturbation-based defense method. Experimental results on
sentiment analysis and toxic detection tasks show that our method achieves
better defending performance and much lower computational costs than existing
online defense methods. Our code is available at
https://github.com/lancopku/RAP.
- Abstract(参考訳): 訓練されたモデルのアウトプットを特定のトリガーで悪意を持って制御するバックドア攻撃は、ディープニューラルネットワーク(dnn)の再利用の安全性に対する深刻な脅威であることが最近示されている。
本研究では,ロバスト性を考慮したオンライン防御機構を提案する。
具体的には, 裏口のトレーニングプロセスを分析することで, 有毒試料と清浄試料の間には大きな頑健性差があることを指摘した。
本研究は, 自然言語処理(NLP)モデルに対するバックドア攻撃を防ぎ, 汚染サンプルとクリーンサンプルとを識別するために, 単語に基づく頑健性を考慮した摂動を構築する。
さらに,ロバスト性を考慮した摂動型防御法の実現可能性に関する理論的解析を行った。
感情分析および有毒な検出タスクに関する実験結果から,従来のオンライン防衛手法よりも優れた防御性能と計算コストが向上することが判明した。
私たちのコードはhttps://github.com/lancopku/rapで利用可能です。
関連論文リスト
- Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Confidence-driven Sampling for Backdoor Attacks [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。
既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。
信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文 参考訳(メタデータ) (2023-10-08T18:57:36Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Expose Backdoors on the Way: A Feature-Based Efficient Defense against
Textual Backdoor Attacks [20.531489681650154]
NLPモデルの以前のオンラインバックドア防御手法は、入力レベルまたは出力レベルの異常のみに焦点を当てていた。
本稿では, 汚染された試料とクリーンな試料とを特徴レベルで識別する, 特徴量に基づく効率的なオンライン防御手法を提案する。
論文 参考訳(メタデータ) (2022-10-14T15:44:28Z) - Backdoor Attack against NLP models with Robustness-Aware Perturbation
defense [0.0]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
本研究は, 有害試料とクリーン試料との堅牢性ギャップを, 敵の訓練工程を用いて制御することにより, この防御を破るものである。
論文 参考訳(メタデータ) (2022-04-08T10:08:07Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - RAB: Provable Robustness Against Backdoor Attacks [20.702977915926787]
我々は、一般的な脅威モデル、特にバックドアアタックに対して、機械学習モデルの堅牢性を証明することに重点を置いている。
トレーニングモデルをスムースにし,バックドア攻撃に対する堅牢性を証明するための,最初の堅牢なトレーニングプロセスであるRABを提案する。
我々は、さまざまな機械学習(ML)モデルに対する包括的な実験を行い、バックドア攻撃に対する信頼性の高い堅牢性を示す最初のベンチマークを提供する。
論文 参考訳(メタデータ) (2020-03-19T17:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。