論文の概要: LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors
- arxiv url: http://arxiv.org/abs/2308.13904v2
- Date: Sat, 14 Oct 2023 15:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 03:51:12.073514
- Title: LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors
- Title(参考訳): lmsanitator:タスクに依存しないバックドアに対するプロンプトチューニングの防御
- Authors: Chengkun Wei, Wenlong Meng, Zhikun Zhang, Min Chen, Minghu Zhao,
Wenjing Fang, Lei Wang, Zihui Zhang, Wenzhi Chen
- Abstract要約: LMSanitatorは、Transformerモデル上でタスク非依存のバックドアを検出し、削除するための新しいアプローチである。
LMSanitatorは960モデルで92.8%のバックドア検出精度を達成し、ほとんどのシナリオで攻撃成功率を1%以下に下げる。
- 参考スコア(独自算出の注目度): 10.136109501389168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-tuning has emerged as an attractive paradigm for deploying large-scale
language models due to its strong downstream task performance and efficient
multitask serving ability. Despite its wide adoption, we empirically show that
prompt-tuning is vulnerable to downstream task-agnostic backdoors, which reside
in the pretrained models and can affect arbitrary downstream tasks. The
state-of-the-art backdoor detection approaches cannot defend against
task-agnostic backdoors since they hardly converge in reversing the backdoor
triggers. To address this issue, we propose LMSanitator, a novel approach for
detecting and removing task-agnostic backdoors on Transformer models. Instead
of directly inverting the triggers, LMSanitator aims to invert the predefined
attack vectors (pretrained models' output when the input is embedded with
triggers) of the task-agnostic backdoors, which achieves much better
convergence performance and backdoor detection accuracy. LMSanitator further
leverages prompt-tuning's property of freezing the pretrained model to perform
accurate and fast output monitoring and input purging during the inference
phase. Extensive experiments on multiple language models and NLP tasks
illustrate the effectiveness of LMSanitator. For instance, LMSanitator achieves
92.8% backdoor detection accuracy on 960 models and decreases the attack
success rate to less than 1% in most scenarios.
- Abstract(参考訳): ダウンストリームのタスクパフォーマンスと効率的なマルチタスクサービス能力のため、プロンプトチューニングは大規模な言語モデルをデプロイするための魅力的なパラダイムとして登場した。
広く採用されているにも関わらず、プロンプトチューニングは、事前トレーニングされたモデルに存在し、任意のダウンストリームタスクに影響を及ぼすダウンストリームタスク非依存のバックドアに対して脆弱であることを実証的に示す。
最先端のバックドア検出アプローチは、バックドアのトリガーの反転にほとんど収束しないため、タスク非依存のバックドアに対して防御できない。
そこで本研究では,Transformer モデル上でタスクに依存しないバックドアの検出と除去を行う LMSanitator を提案する。
LMSanitatorは、直接トリガーを反転させる代わりに、タスク非依存のバックドアの事前定義された攻撃ベクトル(入力にトリガーが埋め込まれた場合の予測されたモデルの出力)を反転させることを目標としている。
LMSanitatorはさらに、事前訓練されたモデルを凍結する迅速なチューニング特性を活用して、推論フェーズ中に正確で高速な出力監視と入力浄化を行う。
複数の言語モデルとNLPタスクに関する大規模な実験は、LMSanitatorの有効性を示している。
例えば、LMSanitatorは960モデルで92.8%のバックドア検出精度を実現し、ほとんどのシナリオで攻撃成功率を1%未満に下げる。
関連論文リスト
- TransTroj: Transferable Backdoor Attacks to Pre-trained Models via
Embedding Indistinguishability [65.21878718144663]
本稿では,トランスポート可能なバックドア攻撃であるTransTrojを提案する。
実験の結果,TransTrojはSOTAタスク非依存のバックドア攻撃よりも有意に優れていた。
論文 参考訳(メタデータ) (2024-01-29T04:35:48Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks [45.81957796169348]
バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威だ。
IMBERTは、被害者モデルから得られた勾配または自己注意スコアを用いて、バックドア攻撃に対する自己防衛を行う。
我々の実証研究は、IMBERTが挿入されたトリガーの98.5%を効果的に識別できることを示した。
論文 参考訳(メタデータ) (2023-05-25T22:08:57Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Gradient Shaping: Enhancing Backdoor Attack Against Reverse Engineering [39.11590429626592]
勾配に基づくトリガーインバージョンは、最も効果的なバックドア検出手法の1つであると考えられている。
本研究は, 既存の攻撃は, トリガーキャリング入力に伴う変化率の低いバックドアを注入する傾向にあることを示した。
textitGradient Shaping(GRASP)と呼ばれる新たな攻撃強化を設計し、トリガに関するバックドアモデルの変更率を削減する。
論文 参考訳(メタデータ) (2023-01-29T01:17:46Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Understanding Impacts of Task Similarity on Backdoor Attack and
Detection [17.5277044179396]
我々は,マルチタスク学習における類似度指標を用いて,メインタスクとバックドアタスク間のバックドア距離(類似度)を定義する。
すると私たちは、既存のステルスなバックドア攻撃を分析し、そのほとんどはバックドア距離を効果的に減らすことができないことを明らかにしました。
次に,TSA攻撃と呼ばれる新しい手法を設計し,所定の距離制約の下でバックドアモデルを自動的に生成する。
論文 参考訳(メタデータ) (2022-10-12T18:07:39Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。