論文の概要: PromptFix: Few-shot Backdoor Removal via Adversarial Prompt Tuning
- arxiv url: http://arxiv.org/abs/2406.04478v1
- Date: Thu, 6 Jun 2024 20:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 18:07:23.118462
- Title: PromptFix: Few-shot Backdoor Removal via Adversarial Prompt Tuning
- Title(参考訳): PromptFix: Adversarial Prompt Tuningによるバックドア削除
- Authors: Tianrong Zhang, Zhaohan Xi, Ting Wang, Prasenjit Mitra, Jinghui Chen,
- Abstract要約: 事前訓練された言語モデル(PLM)は、この数年間、その非並列なパフォーマンスで大きな注目を集めてきた。
PLMを訓練するコストの上昇と、その驚くべき一般化性は、数発の微調整とプロンプトに共同で貢献している。
しかし、既存の研究では、これらのNLPモデルは、トリガートークンが提示されたときにモデル挙動が操作されるように、バックドア化可能であることが示されている。
本稿では,NLPモデルのバックドア緩和戦略であるPromptFixを提案する。
- 参考スコア(独自算出の注目度): 28.845915332201592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models (PLMs) have attracted enormous attention over the past few years with their unparalleled performances. Meanwhile, the soaring cost to train PLMs as well as their amazing generalizability have jointly contributed to few-shot fine-tuning and prompting as the most popular training paradigms for natural language processing (NLP) models. Nevertheless, existing studies have shown that these NLP models can be backdoored such that model behavior is manipulated when trigger tokens are presented. In this paper, we propose PromptFix, a novel backdoor mitigation strategy for NLP models via adversarial prompt-tuning in few-shot settings. Unlike existing NLP backdoor removal methods, which rely on accurate trigger inversion and subsequent model fine-tuning, PromptFix keeps the model parameters intact and only utilizes two extra sets of soft tokens which approximate the trigger and counteract it respectively. The use of soft tokens and adversarial optimization eliminates the need to enumerate possible backdoor configurations and enables an adaptive balance between trigger finding and preservation of performance. Experiments with various backdoor attacks validate the effectiveness of the proposed method and the performances when domain shift is present further shows PromptFix's applicability to models pretrained on unknown data source which is the common case in prompt tuning scenarios.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、この数年間、その非並列なパフォーマンスで大きな注目を集めてきた。
一方、PLMのトレーニングコストと驚くべき一般化性は、数ショットの微調整と自然言語処理(NLP)モデルのトレーニングパラダイムとして最も一般的なものとなっている。
しかしながら、既存の研究では、これらのNLPモデルは、トリガートークンが提示されたときにモデル挙動が操作されるように、バックドア化可能であることが示されている。
本稿では,NLPモデルのバックドア緩和戦略であるPromptFixを提案する。
正確なトリガーインバージョンとその後のモデル微調整に依存する既存のNLPバックドア除去方法とは異なり、PromptFixはモデルのパラメータをそのまま保ち、トリガーを近似し、それに対応する2つのソフトトークンのみを使用する。
ソフトトークンと対向最適化を使用することで、バックドアの設定を列挙する必要がなくなり、トリガー発見とパフォーマンスの保存の間の適応的バランスが可能になる。
種々のバックドアアタックによる実験により,提案手法の有効性とドメインシフト時の性能が検証された。さらに,未知のデータソース上で事前訓練されたモデルに対する PromptFix の適用性も示された。
関連論文リスト
- Mitigating Backdoor Attacks using Activation-Guided Model Editing [8.00994004466919]
バックドア攻撃は、機械学習モデルの完全性と信頼性を損なう。
本研究では,そのようなバックドア攻撃に対抗するために,機械学習による新たなバックドア緩和手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T13:43:47Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Model-tuning Via Prompts Makes NLP Models Adversarially Robust [97.02353907677703]
Model-tuning Via Prompts (MVP) による対向的ロバスト性の評価
MVPは、標準的な方法よりも平均8%の性能向上を実現している。
また,これらの利得の基盤となるメカニズムの解明も行なっている。
論文 参考訳(メタデータ) (2023-03-13T17:41:57Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - MockingBERT: A Method for Retroactively Adding Resilience to NLP Models [4.584774276587428]
そこで本稿では,トランスフォーマーベースNLPモデルに再帰的にレジリエンスを付加する手法を提案する。
これは、元のNLPモデルのトレーニングを必要とせずに実現できる。
また,逆方向のミススペルを生成する手法を提案する。
論文 参考訳(メタデータ) (2022-08-21T16:02:01Z) - Exploring the Universal Vulnerability of Prompt-based Learning Paradigm [21.113683206722207]
素早い学習は、事前学習と微調整のギャップを埋め、数ショット設定で効果的に機能することを発見した。
しかし、この学習パラダイムは、特定のトリガをテキストに挿入することで、モデル予測が誤解されるような事前学習段階から脆弱性を継承することがわかった。
バックドアトリガを注入するか,あるいはプレーンテキストのみを用いて事前学習した言語モデル上での逆トリガを検索することにより,この普遍的な脆弱性を探究する。
論文 参考訳(メタデータ) (2022-04-11T16:34:10Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。