論文の概要: PEFTGuard: Detecting Backdoor Attacks Against Parameter-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2411.17453v1
- Date: Tue, 26 Nov 2024 14:12:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:33:37.043042
- Title: PEFTGuard: Detecting Backdoor Attacks Against Parameter-Efficient Fine-Tuning
- Title(参考訳): PEFTGuard:パラメータ効率の良いファインチューニングに対するバックドアアタックの検出
- Authors: Zhen Sun, Tianshuo Cong, Yule Liu, Chenhao Lin, Xinlei He, Rongmao Chen, Xingshuo Han, Xinyi Huang,
- Abstract要約: 低ランクアダプタは、オープンソースプラットフォーム上で共有および利用することができる。
敵は、このメカニズムを利用して、これらのアダプタにバックドアを注入し、悪意のある振る舞いをもたらす。
PEFTベースのアダプタに対する最初のバックドア検出フレームワークであるPEFTGuardを提案する。
- 参考スコア(独自算出の注目度): 23.52391806601385
- License:
- Abstract: Fine-tuning is an essential process to improve the performance of Large Language Models (LLMs) in specific domains, with Parameter-Efficient Fine-Tuning (PEFT) gaining popularity due to its capacity to reduce computational demands through the integration of low-rank adapters. These lightweight adapters, such as LoRA, can be shared and utilized on open-source platforms. However, adversaries could exploit this mechanism to inject backdoors into these adapters, resulting in malicious behaviors like incorrect or harmful outputs, which pose serious security risks to the community. Unfortunately, few of the current efforts concentrate on analyzing the backdoor patterns or detecting the backdoors in the adapters. To fill this gap, we first construct (and will release) PADBench, a comprehensive benchmark that contains 13,300 benign and backdoored adapters fine-tuned with various datasets, attack strategies, PEFT methods, and LLMs. Moreover, we propose PEFTGuard, the first backdoor detection framework against PEFT-based adapters. Extensive evaluation upon PADBench shows that PEFTGuard outperforms existing detection methods, achieving nearly perfect detection accuracy (100%) in most cases. Notably, PEFTGuard exhibits zero-shot transferability on three aspects, including different attacks, PEFT methods, and adapter ranks. In addition, we consider various adaptive attacks to demonstrate the high robustness of PEFTGuard. We further explore several possible backdoor mitigation defenses, finding fine-mixing to be the most effective method. We envision our benchmark and method can shed light on future LLM backdoor detection research.
- Abstract(参考訳): ファインチューニングは、特定のドメインにおけるLarge Language Models(LLM)の性能を改善するための必須のプロセスであり、低ランクアダプタの統合による計算要求の削減能力により、パラメータ効率の良いファインチューニング(PEFT)が人気を博している。
LoRAのような軽量アダプタは、オープンソースプラットフォーム上で共有および利用することができる。
しかし、敵はこのメカニズムを利用してこれらのアダプタにバックドアを注入し、不正なアウトプットや有害なアウトプットなどの悪意ある行動を引き起こし、コミュニティに深刻なセキュリティリスクをもたらす可能性がある。
残念ながら、現在の取り組みは、バックドアパターンの分析やアダプタ内のバックドアの検出に集中しているものはほとんどありません。
このギャップを埋めるために、我々は最初にPADBenchを構築した(そしてリリースする)。これは13,300の良性およびバックドアのアダプタを様々なデータセット、攻撃戦略、PEFTメソッド、LLMで微調整した総合ベンチマークである。
さらに,PEFTベースのアダプタに対する最初のバックドア検出フレームワークであるPEFTGuardを提案する。
PADBenchによる大規模評価では、PEFTGuardは既存の検出方法よりも優れており、ほとんどのケースでほぼ完全な検出精度(100%)が達成されている。
特にPEFTGuardは、異なる攻撃、PEFTメソッド、アダプタランクを含む3つの側面でゼロショット転送性を示す。
さらに,PEFTGuardの高ロバスト性を示すために,様々なアダプティブアタックを検討する。
さらに,バックドア緩和防御の可能性についても検討し,最も有効な方法として微細なミキシングを見出した。
我々は、将来のLCMバックドア検出研究に、我々のベンチマークと手法が光を当てることができると想定している。
関連論文リスト
- Weak-to-Strong Backdoor Attack for Large Language Models [15.055037707091435]
特徴アライメント強化知識蒸留(W2SAttack)に基づく新しいバックドア攻撃アルゴリズムを提案する。
我々は,W2SAttackが4つの言語モデル,4つのバックドアアタックアルゴリズム,および2つの異なる教師モデルのアーキテクチャの分類タスクにおいて優れていることを示す。
論文 参考訳(メタデータ) (2024-09-26T15:20:37Z) - Obliviate: Neutralizing Task-agnostic Backdoors within the Parameter-efficient Fine-tuning Paradigm [8.905741632785183]
PEFT統合バックドアディフェンスであるObliviateを紹介する。
我々は,PEFT層内の良性ニューロンを増幅し,トリガートークンの影響を罰する2つの手法を開発した。
本手法は,タスク固有のバックドアとアダプティブアタックに対する堅牢な防御能力を示す。
論文 参考訳(メタデータ) (2024-09-21T12:20:18Z) - Fisher Information guided Purification against Backdoor Attacks [22.412186735687786]
我々は、新しいバックドア浄化フレームワーク、Fisher Information Guided Purification (FIP)を提案する。
FIPは、バックドア効果の抑制と、クリーンなデータ分布の取得した知識を維持するためにモデルを支援する2つの新しい正規化器で構成されている。
さらに、Fast FIPと呼ばれる効率的なFIPを導入し、チューニング可能なパラメータの数を著しく削減し、約5倍のランタイムゲインを得る。
論文 参考訳(メタデータ) (2024-09-01T23:09:44Z) - TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models [69.37990698561299]
TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。
提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。
広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
論文 参考訳(メタデータ) (2024-05-27T03:10:57Z) - LOTUS: Evasive and Resilient Backdoor Attacks through Sub-Partitioning [49.174341192722615]
バックドア攻撃は、ディープラーニングアプリケーションに重大なセキュリティ脅威をもたらす。
近年の研究では、特殊な変換機能によって作られたサンプル特異的に見えないトリガーを用いた攻撃が導入されている。
我々は、回避性とレジリエンスの両方に対処するために、新しいバックドアアタックLOTUSを導入する。
論文 参考訳(メタデータ) (2024-03-25T21:01:29Z) - Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning [57.50274256088251]
パラメータ効率のよい微調整(PEFT)は,重み付けによるバックドア攻撃の影響を受けやすいことを示す。
PEFTを利用したPSIM(Poisoned Sample Identification Module)を開発した。
テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。
論文 参考訳(メタデータ) (2024-02-19T14:22:54Z) - Model Supply Chain Poisoning: Backdooring Pre-trained Models via Embedding Indistinguishability [61.549465258257115]
そこで我々は,PTMに埋め込まれたバックドアをモデルサプライチェーンに効率的に移動させる,新しい,より厳しいバックドア攻撃であるTransTrojを提案する。
実験の結果,本手法はSOTAタスク非依存のバックドア攻撃より有意に優れていた。
論文 参考訳(メタデータ) (2024-01-29T04:35:48Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - AdaptGuard: Defending Against Universal Attacks for Model Adaptation [129.2012687550069]
モデル適応アルゴリズムにおいて、ソースドメインから転送されるユニバーサルアタックに対する脆弱性について検討する。
本稿では,モデル適応アルゴリズムの安全性を向上させるために,AdaptGuardというモデル前処理フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-19T07:53:31Z) - Adaptive Perturbation Generation for Multiple Backdoors Detection [29.01715186371785]
本稿では,複数種類のバックドア攻撃を検出するための適応摂動生成(APG)フレームワークを提案する。
まず,複数種類のバックドアトリガに適合するグローバル・ローカル戦略を設計する。
摂動注入の効率をさらに高めるため,勾配誘導マスク生成戦略を導入する。
論文 参考訳(メタデータ) (2022-09-12T13:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。