論文の概要: Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2402.12168v3
- Date: Fri, 29 Mar 2024 12:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 18:02:50.002524
- Title: Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning
- Title(参考訳): パラメータ効率の良いファインチューニングのための重み付きバックドアアタック対策
- Authors: Shuai Zhao, Leilei Gan, Luu Anh Tuan, Jie Fu, Lingjuan Lyu, Meihuizi Jia, Jinming Wen,
- Abstract要約: パラメータ効率のよい微調整(PEFT)は,重み付けによるバックドア攻撃の影響を受けやすいことを示す。
PEFTを利用したPSIM(Poisoned Sample Identification Module)を開発した。
テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。
- 参考スコア(独自算出の注目度): 57.50274256088251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, various parameter-efficient fine-tuning (PEFT) strategies for application to language models have been proposed and successfully implemented. However, this raises the question of whether PEFT, which only updates a limited set of model parameters, constitutes security vulnerabilities when confronted with weight-poisoning backdoor attacks. In this study, we show that PEFT is more susceptible to weight-poisoning backdoor attacks compared to the full-parameter fine-tuning method, with pre-defined triggers remaining exploitable and pre-defined targets maintaining high confidence, even after fine-tuning. Motivated by this insight, we developed a Poisoned Sample Identification Module (PSIM) leveraging PEFT, which identifies poisoned samples through confidence, providing robust defense against weight-poisoning backdoor attacks. Specifically, we leverage PEFT to train the PSIM with randomly reset sample labels. During the inference process, extreme confidence serves as an indicator for poisoned samples, while others are clean. We conduct experiments on text classification tasks, five fine-tuning strategies, and three weight-poisoning backdoor attack methods. Experiments show near 100% success rates for weight-poisoning backdoor attacks when utilizing PEFT. Furthermore, our defensive approach exhibits overall competitive performance in mitigating weight-poisoning backdoor attacks.
- Abstract(参考訳): 近年,言語モデルに適用するための様々なパラメータ効率細調整(PEFT)戦略が提案され,実装が成功している。
しかし、このことは、限られたモデルパラメータのみを更新するPEFTが、重み付けされたバックドア攻撃に直面した場合にセキュリティ上の脆弱性を構成するかどうかという疑問を提起する。
本研究では,PEFTが全パラメータ細調整法よりも重み付けバックドア攻撃の影響を受けやすいことを示す。
この知見により,PEFTを利用したPSIM(Poisoned Sample Identification Module)を開発した。
具体的には、PEFTを利用して、ランダムにリセットされたサンプルラベルでPSIMをトレーニングする。
推測の過程では、極度に自信が有毒なサンプルの指標となり、他のものは清潔である。
テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。
実験では、PEFTを利用する場合、重量を抑えるバックドア攻撃が100%近い成功率を示す。
さらに,本研究の防御的アプローチは,重量減少によるバックドア攻撃を緩和するための総合的な競争性能を示す。
関連論文リスト
- Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Obliviate: Neutralizing Task-agnostic Backdoors within the Parameter-efficient Fine-tuning Paradigm [8.905741632785183]
PEFT統合バックドアディフェンスであるObliviateを紹介する。
我々は,PEFT層内の良性ニューロンを増幅し,トリガートークンの影響を罰する2つの手法を開発した。
本手法は,タスク固有のバックドアとアダプティブアタックに対する堅牢な防御能力を示す。
論文 参考訳(メタデータ) (2024-09-21T12:20:18Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Poisoned Forgery Face: Towards Backdoor Attacks on Face Forgery
Detection [62.595450266262645]
本稿では,バックドア攻撃による顔偽造検出の新たな脅威について紹介する。
バックドアをモデルに埋め込むことで、攻撃者は検知器を騙して偽造された顔の誤予測を発生させることができる。
我々は,顔偽造検知器に対するクリーンラベルバックドア攻撃を可能にするemphPoisoned Forgery Faceフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T06:31:05Z) - Confidence-driven Sampling for Backdoor Attacks [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。
既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。
信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文 参考訳(メタデータ) (2023-10-08T18:57:36Z) - Towards Stable Backdoor Purification through Feature Shift Tuning [22.529990213795216]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
本稿では,最も一般的かつ容易に配置可能なバックドアディフェンスであるファインチューニングから始める。
チューニングに基づくバックドア浄化手法であるFeature Shift Tuning (FST)を紹介する。
論文 参考訳(メタデータ) (2023-10-03T08:25:32Z) - Backdoor Attacks on Pre-trained Models by Layerwise Weight Poisoning [27.391664788392]
事前訓練された重量は、特定のトリガーで有害に毒を盛ることがある。
微調整されたモデルは事前に定義されたラベルを予測し、セキュリティ上の脅威を引き起こす。
論文 参考訳(メタデータ) (2021-08-31T14:47:37Z) - Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文 参考訳(メタデータ) (2020-04-14T16:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。