論文の概要: Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2309.13256v1
- Date: Sat, 23 Sep 2023 04:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 21:03:13.309886
- Title: Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks
- Title(参考訳): バックドア攻撃に対する学習者による事前訓練型言語モデルの構築
- Authors: Zhaohan Xi, Tianyu Du, Changjiang Li, Ren Pang, Shouling Ji, Jinghui
Chen, Fenglong Ma, Ting Wang
- Abstract要約: 軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
- 参考スコア(独自算出の注目度): 72.03945355787776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models (PLMs) have demonstrated remarkable performance
as few-shot learners. However, their security risks under such settings are
largely unexplored. In this work, we conduct a pilot study showing that PLMs as
few-shot learners are highly vulnerable to backdoor attacks while existing
defenses are inadequate due to the unique challenges of few-shot scenarios. To
address such challenges, we advocate MDP, a novel lightweight, pluggable, and
effective defense for PLMs as few-shot learners. Specifically, MDP leverages
the gap between the masking-sensitivity of poisoned and clean samples: with
reference to the limited few-shot data as distributional anchors, it compares
the representations of given samples under varying masking and identifies
poisoned samples as ones with significant variations. We show analytically that
MDP creates an interesting dilemma for the attacker to choose between attack
effectiveness and detection evasiveness. The empirical evaluation using
benchmark datasets and representative attacks validates the efficacy of MDP.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は、数発の学習者として顕著な性能を示した。
しかし、そのような状況下でのセキュリティリスクは、ほとんど調査されていない。
本研究では,小ショット学習者のplmがバックドア攻撃に対して非常に脆弱であるのに対して,小ショットシナリオのユニークな課題により既存の防御が不十分であることを示すパイロット研究を行った。
このような課題に対処するため,我々は,PLMの軽量でプラガブルで効果的な防御技術であるMDPを,少人数の学習者として提唱する。
特に、MDPは、汚染されたサンプルとクリーンなサンプルのマスキング感度のギャップを生かし、限られた数発のデータを分布アンカーとして、異なるマスキングの下で与えられたサンプルの表現を比較し、有毒なサンプルを有意な変動のあるものとして識別する。
mdpが攻撃効果と検出回避性のいずれかを選択するための興味深いジレンマを生み出すことを解析的に示す。
ベンチマークデータセットと代表攻撃を用いた経験的評価はmdpの有効性を検証する。
関連論文リスト
- On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Fooling the Textual Fooler via Randomizing Latent Representations [14.464967809710425]
敵語レベルの摂動はよく研究され効果的な攻撃戦略である。
本稿では、敵の例を生成する過程を複雑にすることを目的とする、軽量で攻撃に依存しない防御法を提案する。
本稿では,AdvFoolerの対人的単語レベル攻撃に対する最先端のロバスト性を実証的に示す。
論文 参考訳(メタデータ) (2023-10-02T06:57:25Z) - COVER: A Heuristic Greedy Adversarial Attack on Prompt-based Learning in
Language Models [4.776465250559034]
ブラックボックスシナリオにおける手動テンプレートに対するプロンプトベースの逆攻撃を提案する。
まず,手動テンプレートを個別に分割するための文字レベルと単語レベルのアプローチを設計する。
そして、上記の破壊的アプローチに基づく攻撃に対する欲求的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:53:42Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Defending Regression Learners Against Poisoning Attacks [25.06658793731661]
N-LIDと呼ばれる新しい局所固有次元(LID)に基づく測度を導入し,その近傍データ点のLIDの局所偏差を測定する。
N-LIDは、正常なサンプルから有毒なサンプルを識別し、攻撃者を仮定しないN-LIDベースの防御アプローチを提案する。
提案した防御機構は,予測精度(未固定リッジモデルと比較して最大76%低いMSE)とランニング時間において,より優れることを示す。
論文 参考訳(メタデータ) (2020-08-21T03:02:58Z) - Membership Leakage in Label-Only Exposures [10.875144776014533]
本稿では,機械学習モデルに対する決定に基づくメンバシップ推論攻撃を提案する。
特に、転送攻撃と境界攻撃という2種類の意思決定ベースの攻撃を考案する。
また,量的および質的分析に基づく会員推定の成功に関する新たな知見も提示する。
論文 参考訳(メタデータ) (2020-07-30T15:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。