論文の概要: Fewer is More: Trojan Attacks on Parameter-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2310.00648v3
- Date: Thu, 23 Nov 2023 02:33:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 03:17:28.585628
- Title: Fewer is More: Trojan Attacks on Parameter-Efficient Fine-Tuning
- Title(参考訳): パラメータ効率の良い微調整でトロイの木馬を攻撃
- Authors: Lauren Hong, Ting Wang
- Abstract要約: 我々は,PEFTがトロイの木馬攻撃に特有の脆弱性を示すことを示すパイロット実験を行った。
両レベル最適化による下流適応を考慮した新しい攻撃である PETA を提案する。
攻撃成功率, 影響を受けないクリーン精度の両方の観点から, PETAの有効性を実証する。
- 参考スコア(独自算出の注目度): 12.20025023527452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) enables efficient adaptation of
pre-trained language models (PLMs) to specific tasks. By tuning only a minimal
set of (extra) parameters, PEFT achieves performance comparable to full
fine-tuning. However, despite its prevalent use, the security implications of
PEFT remain largely unexplored. In this paper, we conduct a pilot study
revealing that PEFT exhibits unique vulnerability to trojan attacks.
Specifically, we present PETA, a novel attack that accounts for downstream
adaptation through bilevel optimization: the upper-level objective embeds the
backdoor into a PLM while the lower-level objective simulates PEFT to retain
the PLM's task-specific performance. With extensive evaluation across a variety
of downstream tasks and trigger designs, we demonstrate PETA's effectiveness in
terms of both attack success rate and unaffected clean accuracy, even after the
victim user performs PEFT over the backdoored PLM using untainted data.
Moreover, we empirically provide possible explanations for PETA's efficacy: the
bilevel optimization inherently 'orthogonalizes' the backdoor and PEFT modules,
thereby retaining the backdoor throughout PEFT. Based on this insight, we
explore a simple defense that omits PEFT in selected layers of the backdoored
PLM and unfreezes a subset of these layers' parameters, which is shown to
effectively neutralize PETA.
- Abstract(参考訳): パラメータ効率のよい微調整(PEFT)により、事前訓練された言語モデル(PLM)を特定のタスクに効率的に適応させることができる。
PEFTは最小限のパラメータのみをチューニングすることで、完全な微調整に匹敵するパフォーマンスを達成する。
しかし、広く使われているにもかかわらず、PEFTのセキュリティ上の意味はほとんど解明されていない。
本稿では,PEFTがトロイの木馬攻撃に特有の脆弱性を示すことを示すパイロット実験を行った。
具体的には,両レベル最適化による下流適応を考慮した新たな攻撃である PETA について述べる。上層目標がバックドアを PLM に埋め込む一方で,下層目標が PEFT をシミュレートして PLM のタスク固有性能を維持する。
様々なダウンストリームタスクやトリガ設計において,攻撃成功率と影響を受けないクリーンさの両方の観点から,PETAの有効性を実証する。
両レベル最適化は本質的にはバックドアとPEFTモジュールを「直交」し、PEFT全体を通してバックドアを保持する。
この知見に基づいて,PEFT をバックドア PLM の選択層で省略し,これらの層のパラメータのサブセットを解凍する簡単な防御法を探索し,PETA を効果的に中和することを示した。
関連論文リスト
- Obliviate: Neutralizing Task-agnostic Backdoors within the Parameter-efficient Fine-tuning Paradigm [8.905741632785183]
PEFT統合バックドアディフェンスであるObliviateを紹介する。
我々は,PEFT層内の良性ニューロンを増幅し,トリガートークンの影響を罰する2つの手法を開発した。
本手法は,タスク固有のバックドアとアダプティブアタックに対する堅牢な防御能力を示す。
論文 参考訳(メタデータ) (2024-09-21T12:20:18Z) - HiDe-PET: Continual Learning via Hierarchical Decomposition of Parameter-Efficient Tuning [55.88910947643436]
予備学習モデル(PTM)とパラメータ効率チューニング(PET)を組み合わせた連続学習(CL)統合フレームワークを提案する。
タスク固有知識とタスク共有知識を取り入れることで目的を明示的に最適化する革新的な手法である階層分解PET(HiDe-PET)を提案する。
提案手法は,近年の強いベースラインの幅広いスペクトルに対して,極めて優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-07T01:50:25Z) - Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning [57.50274256088251]
パラメータ効率のよい微調整(PEFT)は,重み付けによるバックドア攻撃の影響を受けやすいことを示す。
PEFTを利用したPSIM(Poisoned Sample Identification Module)を開発した。
テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。
論文 参考訳(メタデータ) (2024-02-19T14:22:54Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Exploring the Impact of Model Scaling on Parameter-Efficient Tuning [100.61202305296275]
大規模事前学習言語モデル(PLM)を効果的に駆動できるスケーリング効率チューニング(PET)法
小型PLMでは、PET法には通常顕著な性能差がある。
本稿では,Arbitrary PET (APET) 法という,より柔軟なPET法を提案する。
論文 参考訳(メタデータ) (2023-06-04T10:10:54Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - PATS: Sensitivity-aware Noisy Learning for Pretrained Language Models [29.140036130469042]
本稿では、下流タスクにおける各パラメータの重要性を考慮に入れたノイズの多いトレーニングメカニズムであるPATS(Perturbation Based To Sensitivity)を提案する。
GLUEベンチマークの異なるタスクで実施された実験は、PATSがPLMの異なるサイズの微調整を一貫して強化できることを示している。
論文 参考訳(メタデータ) (2022-10-22T10:05:14Z) - Pre-trained Adversarial Perturbations [16.95886568770364]
PAP(Pre-trained Adversarial Perturbations)は、訓練済みモデルが微調整されたモデルを攻撃する際の有効性を維持するために考案された、普遍的な摂動である。
トレーニング済みモデルの低レベル層のニューロン活性化を解除し,有効なPAPを生成する低レベル層リフティングアタック(L4A)法を提案する。
通常の訓練済み視覚モデルと10のダウンストリームタスクの実験により、我々の手法は最先端の手法と比較して、攻撃成功率を大幅に向上することを示した。
論文 参考訳(メタデータ) (2022-10-07T07:28:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。