論文の概要: LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors
- arxiv url: http://arxiv.org/abs/2308.13904v1
- Date: Sat, 26 Aug 2023 15:21:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 18:18:39.012947
- Title: LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors
- Title(参考訳): lmsanitator:タスクに依存しないバックドアに対するプロンプトチューニングの防御
- Authors: Chengkun Wei, Wenlong Meng, Zhikun Zhang, Min Chen, Minghu Zhao,
Wenjing Fang, Lei Wang, Zihui Zhang, Wenzhi Chen
- Abstract要約: トランスフォーマーモデル上でタスク非依存のバックドアを検出し除去するための新しいアプローチであるLMSanitatorを提案する。
LMSanitatorは960モデルで92.8%のバックドア検出精度を達成し、ほとんどのシナリオで攻撃成功率を1%以下に下げる。
- 参考スコア(独自算出の注目度): 10.136109501389168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-tuning has emerged as an attractive paradigm for deploying large-scale
language models due to its strong downstream task performance and efficient
multitask serving ability. Despite its wide adoption, we empirically show that
prompt-tuning is vulnerable to downstream task-agnostic backdoors, which reside
in the pretrained models and can affect arbitrary downstream tasks. The
state-of-the-art backdoor detection approaches cannot defend against
task-agnostic backdoors since they hardly converge in reversing the backdoor
triggers. To address this issue, we propose LMSanitator, a novel approach for
detecting and removing task-agnostic backdoors on Transformer models. Instead
of directly inversing the triggers, LMSanitator aims to inverse the predefined
attack vectors (pretrained models' output when the input is embedded with
triggers) of the task-agnostic backdoors, which achieves much better
convergence performance and backdoor detection accuracy. LMSanitator further
leverages prompt-tuning's property of freezing the pretrained model to perform
accurate and fast output monitoring and input purging during the inference
phase. Extensive experiments on multiple language models and NLP tasks
illustrate the effectiveness of LMSanitator. For instance, LMSanitator achieves
92.8% backdoor detection accuracy on 960 models and decreases the attack
success rate to less than 1% in most scenarios.
- Abstract(参考訳): ダウンストリームのタスクパフォーマンスと効率的なマルチタスクサービス能力のため、プロンプトチューニングは大規模な言語モデルをデプロイするための魅力的なパラダイムとして登場した。
広く採用されているにも関わらず、プロンプトチューニングは、事前トレーニングされたモデルに存在し、任意のダウンストリームタスクに影響を及ぼすダウンストリームタスク非依存のバックドアに対して脆弱であることを実証的に示す。
最先端のバックドア検出アプローチは、バックドアのトリガーの反転にほとんど収束しないため、タスク非依存のバックドアに対して防御できない。
そこで本研究では,Transformer モデル上でタスクに依存しないバックドアの検出と除去を行う LMSanitator を提案する。
LMSanitatorは、トリガーを直接逆転するのではなく、タスク非依存のバックドアの事前定義された攻撃ベクトル(入力にトリガーが埋め込まれた場合の予測モデルの出力)を逆転させることを目的としており、より優れた収束性能とバックドア検出精度を実現する。
LMSanitatorはさらに、事前訓練されたモデルを凍結する迅速なチューニング特性を活用して、推論フェーズ中に正確で高速な出力監視と入力浄化を行う。
複数の言語モデルとNLPタスクに関する大規模な実験は、LMSanitatorの有効性を示している。
例えば、LMSanitatorは960モデルで92.8%のバックドア検出精度を実現し、ほとんどのシナリオで攻撃成功率を1%未満に下げる。
関連論文リスト
- Uncovering, Explaining, and Mitigating the Superficial Safety of Backdoor Defense [27.471096446155933]
現行のバックドア浄化法における精製後ロバスト性について検討した。
現在の安全浄化法は, バックドア行動の迅速な再学習に弱いことが判明した。
モデル更新を伴うバックドア接続経路の偏差を緩和するチューニングディフェンス,Path-Aware Minimization (PAM)を提案する。
論文 参考訳(メタデータ) (2024-10-13T13:37:36Z) - CLIBE: Detecting Dynamic Backdoors in Transformer-based NLP Models [39.782217458240225]
本稿では, Transformer ベースの NLP モデルで動的バックドアを検出する最初のフレームワークである CLIBE を提案する。
私たちの知る限り、CLIBEは、入力テストサンプルをトリガーすることなく、テキスト生成モデルのバックドアを検出することができる最初のフレームワークです。
論文 参考訳(メタデータ) (2024-09-02T11:59:56Z) - MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Task-Agnostic Detector for Insertion-Based Backdoor Attacks [53.77294614671166]
本稿では,バックドア検出の先駆的手法であるTABDet(Task-Agnostic Backdoor Detector)を紹介する。
TABDetは、最終層ロジットと効率的なプーリング技術を組み合わせて、3つの著名なNLPタスクをまたいだ統一ロジット表現を可能にする。
TABDetは多様なタスク特化モデルから共同で学習し、従来のタスク特化手法よりも優れた検出効率を示す。
論文 参考訳(メタデータ) (2024-03-25T20:12:02Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Understanding Impacts of Task Similarity on Backdoor Attack and
Detection [17.5277044179396]
我々は,マルチタスク学習における類似度指標を用いて,メインタスクとバックドアタスク間のバックドア距離(類似度)を定義する。
すると私たちは、既存のステルスなバックドア攻撃を分析し、そのほとんどはバックドア距離を効果的に減らすことができないことを明らかにしました。
次に,TSA攻撃と呼ばれる新しい手法を設計し,所定の距離制約の下でバックドアモデルを自動的に生成する。
論文 参考訳(メタデータ) (2022-10-12T18:07:39Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。