論文の概要: PETA: Parameter-Efficient Trojan Attacks
- arxiv url: http://arxiv.org/abs/2310.00648v5
- Date: Fri, 29 Mar 2024 05:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 20:36:47.819709
- Title: PETA: Parameter-Efficient Trojan Attacks
- Title(参考訳): PETA: パラメータ効率の良いトロイの木馬攻撃
- Authors: Lauren Hong, Ting Wang,
- Abstract要約: PETAはPLMの重みを損なう新しいトロイの木馬攻撃である。
攻撃者が被害者のトレーニングプロセスについて十分な知識を持っていない場合でも,攻撃成功率とクリーン精度の両方の観点からPETAの有効性を実証する。
- 参考スコア(独自算出の注目度): 10.327226660571121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) enables efficient adaptation of pre-trained language models (PLMs) to specific tasks. By tuning only a minimal set of (extra) parameters, PEFT achieves performance that is comparable to standard fine-tuning. However, despite its prevalent use, the security implications of PEFT remain largely unexplored. In this paper, we take the initial steps and present PETA, a novel trojan attack that compromises the weights of PLMs by accounting for downstream adaptation through bilevel optimization: the upper-level objective embeds the backdoor into a model while the lower-level objective simulates PEFT to both retain the PLM's task-specific performance and ensure that the backdoor persists after fine-tuning. With extensive evaluation across a variety of downstream tasks and trigger designs, we demonstrate PETA's effectiveness in terms of both attack success rate and clean accuracy, even when the attacker does not have full knowledge of the victim user's training process.
- Abstract(参考訳): パラメータ効率のよい微調整(PEFT)により、事前訓練された言語モデル(PLM)を特定のタスクに効率的に適応させることができる。
PEFTは最小限のパラメータのみをチューニングすることで、標準的な微調整に匹敵するパフォーマンスを達成する。
しかし、広く使われているにもかかわらず、PEFTのセキュリティ上の意味はほとんど解明されていない。
本稿では,2レベル最適化による下流適応を考慮し,PLMの重みを損なう新しいトロイの木馬攻撃 PETA について述べる。上層目標がモデルにバックドアを埋め込む一方で,下層目標がPEFTをシミュレートしてPLMのタスク固有性能を維持し,微調整後にバックドアが持続することを保証する。
様々なダウンストリームタスクやトリガ設計に対する広範な評価により、攻撃者が被害者のトレーニングプロセスについて十分な知識を持っていない場合でも、攻撃の成功率とクリーンな精度の両方の観点から、PETAの有効性を実証する。
関連論文リスト
- Obliviate: Neutralizing Task-agnostic Backdoors within the Parameter-efficient Fine-tuning Paradigm [8.905741632785183]
PEFT統合バックドアディフェンスであるObliviateを紹介する。
我々は,PEFT層内の良性ニューロンを増幅し,トリガートークンの影響を罰する2つの手法を開発した。
本手法は,タスク固有のバックドアとアダプティブアタックに対する堅牢な防御能力を示す。
論文 参考訳(メタデータ) (2024-09-21T12:20:18Z) - HiDe-PET: Continual Learning via Hierarchical Decomposition of Parameter-Efficient Tuning [55.88910947643436]
予備学習モデル(PTM)とパラメータ効率チューニング(PET)を組み合わせた連続学習(CL)統合フレームワークを提案する。
タスク固有知識とタスク共有知識を取り入れることで目的を明示的に最適化する革新的な手法である階層分解PET(HiDe-PET)を提案する。
提案手法は,近年の強いベースラインの幅広いスペクトルに対して,極めて優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-07T01:50:25Z) - Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning [57.50274256088251]
パラメータ効率のよい微調整(PEFT)は,重み付けによるバックドア攻撃の影響を受けやすいことを示す。
PEFTを利用したPSIM(Poisoned Sample Identification Module)を開発した。
テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。
論文 参考訳(メタデータ) (2024-02-19T14:22:54Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Exploring the Impact of Model Scaling on Parameter-Efficient Tuning [100.61202305296275]
大規模事前学習言語モデル(PLM)を効果的に駆動できるスケーリング効率チューニング(PET)法
小型PLMでは、PET法には通常顕著な性能差がある。
本稿では,Arbitrary PET (APET) 法という,より柔軟なPET法を提案する。
論文 参考訳(メタデータ) (2023-06-04T10:10:54Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - PATS: Sensitivity-aware Noisy Learning for Pretrained Language Models [29.140036130469042]
本稿では、下流タスクにおける各パラメータの重要性を考慮に入れたノイズの多いトレーニングメカニズムであるPATS(Perturbation Based To Sensitivity)を提案する。
GLUEベンチマークの異なるタスクで実施された実験は、PATSがPLMの異なるサイズの微調整を一貫して強化できることを示している。
論文 参考訳(メタデータ) (2022-10-22T10:05:14Z) - Pre-trained Adversarial Perturbations [16.95886568770364]
PAP(Pre-trained Adversarial Perturbations)は、訓練済みモデルが微調整されたモデルを攻撃する際の有効性を維持するために考案された、普遍的な摂動である。
トレーニング済みモデルの低レベル層のニューロン活性化を解除し,有効なPAPを生成する低レベル層リフティングアタック(L4A)法を提案する。
通常の訓練済み視覚モデルと10のダウンストリームタスクの実験により、我々の手法は最先端の手法と比較して、攻撃成功率を大幅に向上することを示した。
論文 参考訳(メタデータ) (2022-10-07T07:28:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。