論文の概要: Mitigating Backdoor Poisoning Attacks through the Lens of Spurious
Correlation
- arxiv url: http://arxiv.org/abs/2305.11596v1
- Date: Fri, 19 May 2023 11:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 14:46:03.129301
- Title: Mitigating Backdoor Poisoning Attacks through the Lens of Spurious
Correlation
- Title(参考訳): 偽相関レンズによるバックドア毒殺攻撃の軽減
- Authors: Xuanli He, Qiongkai Xu, Jun Wang, Benjamin Rubinstein, Trevor Cohn
- Abstract要約: バックドアは、特定のテキストトリガーとターゲットラベルでトレーニングインスタンスを作成できる。
本稿では, 裏口毒による攻撃が, 単純なテキスト特徴と分類ラベルとの間に急激な相関を示すことを示唆する。
実験により、悪意のあるトリガーはターゲットラベルと高い相関関係があることが判明した。
- 参考スコア(独自算出の注目度): 45.031510786791195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern NLP models are often trained over large untrusted datasets, raising
the potential for a malicious adversary to compromise model behaviour. For
instance, backdoors can be implanted through crafting training instances with a
specific textual trigger and a target label. This paper posits that backdoor
poisoning attacks exhibit spurious correlation between simple text features and
classification labels, and accordingly, proposes methods for mitigating
spurious correlation as means of defence. Our empirical study reveals that the
malicious triggers are highly correlated to their target labels; therefore such
correlations are extremely distinguishable compared to those scores of benign
features, and can be used to filter out potentially problematic instances.
Compared with several existing defences, our defence method significantly
reduces attack success rates across backdoor attacks, and in the case of
insertion based attacks, our method provides a near-perfect defence.
- Abstract(参考訳): 現代のNLPモデルは、しばしば大きな信頼できないデータセット上で訓練され、悪意のある敵がモデルの振る舞いを妥協する可能性を高める。
例えば、特定のテキストトリガーとターゲットラベルでトレーニングインスタンスを作成することで、バックドアを埋め込むことができる。
本論文は, バックドア毒殺攻撃は, 簡単なテキスト特徴と分類ラベルの相互関係を示すことを示唆し, 防御手段としての相互相関を緩和する手法を提案する。
実験の結果,悪意のあるトリガーがターゲットラベルと高い相関関係にあることが明らかとなった。そのため,このような相関関係は,良質な特徴のスコアと比較すると極めて識別可能であり,潜在的に問題のあるインスタンスを除去できる可能性がある。
本手法は, 既存の防衛手法と比べ, バックドア攻撃における攻撃成功率を大幅に削減し, 挿入ベース攻撃の場合, ほぼ完全な防御を提供する。
関連論文リスト
- Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning
Attacks in Federated Learning [98.43475653490219]
フェデレート・ラーニング(Federated Learning, FL)は、毒素による攻撃を受けやすい。
FreqFedは、モデルの更新を周波数領域に変換する新しいアグリゲーションメカニズムである。
FreqFedは, 凝集モデルの有用性に悪影響を及ぼすことなく, 毒性攻撃を効果的に軽減できることを実証した。
論文 参考訳(メタデータ) (2023-12-07T16:56:24Z) - Detecting Backdoors in Deep Text Classifiers [43.36440869257781]
本稿では,テキスト分類モデルに対するバックドア攻撃を一般化する,最初の堅牢な防御機構を提案する。
我々の技術は、データ中毒や重毒など、最先端のバックドア攻撃に対する防御に極めて正確です。
論文 参考訳(メタデータ) (2022-10-11T07:48:03Z) - Contributor-Aware Defenses Against Adversarial Backdoor Attacks [2.830541450812474]
敵のバックドア攻撃は 特定の事例を 狙った誤分類を行う能力を示した
本稿では,多元的,潜在的に敵対的なデータソースの存在下で学習するための,コントリビュータを意識したユニバーサル・ディフェンス・フレームワークを提案する。
本研究は,複数の同時敵からの敵のバックドア攻撃に対するフレームワークの堅牢性を示す実証的研究である。
論文 参考訳(メタデータ) (2022-05-28T20:25:34Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Excess Capacity and Backdoor Poisoning [11.383869751239166]
バックドアデータ中毒攻撃は、攻撃者がいくつかの透かし、ラベルのついたトレーニング例をトレーニングセットに注入する敵攻撃である。
本稿では,分類問題に対するバックドアデータ中毒攻撃を議論できる形式的理論的枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-02T03:04:38Z) - Can We Mitigate Backdoor Attack Using Adversarial Detection Methods? [26.8404758315088]
我々は,Deep Neural Networksの敵対的事例とバックドア事例の関連性について包括的に研究する。
我々の知見は, 逆行例と逆行例の両方が推論過程中に異常を有するという観察に基づいている。
バックドアの事例を検出するために,既存の4つの対角防御法を改訂した。
論文 参考訳(メタデータ) (2020-06-26T09:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。