論文の概要: Acquiring Clean Language Models from Backdoor Poisoned Datasets by
Downscaling Frequency Space
- arxiv url: http://arxiv.org/abs/2402.12026v2
- Date: Tue, 27 Feb 2024 03:22:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 20:47:32.725273
- Title: Acquiring Clean Language Models from Backdoor Poisoned Datasets by
Downscaling Frequency Space
- Title(参考訳): 周波数空間のダウンスケーリングによるバックドアポゾンデータセットからのクリーン言語モデル取得
- Authors: Zongru Wu, Zhuosheng Zhang, Pengzhou Cheng, Gongshen Liu
- Abstract要約: 周波数空間におけるバックドアLMの学習機構をフーリエ解析により検討した。
本稿では,マルチスケール低ランク適応 (MuScleLoRA) を提案する。
MuScleLoRAは、さまざまなバックドア攻撃の平均成功率を、複数のデータセットで15%以下に削減する。
- 参考スコア(独自算出の注目度): 19.64395135485729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the notable success of language models (LMs) in various natural
language processing (NLP) tasks, the reliability of LMs is susceptible to
backdoor attacks. Prior research attempts to mitigate backdoor learning while
training the LMs on the poisoned dataset, yet struggles against complex
backdoor attacks in real-world scenarios. In this paper, we investigate the
learning mechanisms of backdoor LMs in the frequency space by Fourier analysis.
Our findings indicate that the backdoor mapping presented on the poisoned
datasets exhibits a more discernible inclination towards lower frequency
compared to clean mapping, resulting in the faster convergence of backdoor
mapping. To alleviate this dilemma, we propose Multi-Scale Low-Rank Adaptation
(MuScleLoRA), which deploys multiple radial scalings in the frequency space
with low-rank adaptation to the target model and further aligns the gradients
when updating parameters. Through downscaling in the frequency space,
MuScleLoRA encourages the model to prioritize the learning of relatively
high-frequency clean mapping, consequently mitigating backdoor learning.
Experimental results demonstrate that MuScleLoRA outperforms baselines
significantly. Notably, MuScleLoRA reduces the average success rate of diverse
backdoor attacks to below 15\% across multiple datasets and generalizes to
various backbone LMs, including BERT, RoBERTa, and Llama2. The codes are
available at https://github.com/ZrW00/MuScleLoRA.
- Abstract(参考訳): 自然言語処理(NLP)タスクにおける言語モデル(LM)の顕著な成功にもかかわらず、LMの信頼性はバックドア攻撃の影響を受けやすい。
以前の研究は、毒付きデータセットでlmsをトレーニングしながらバックドア学習を緩和しようとするが、現実のシナリオでは複雑なバックドア攻撃に苦しむ。
本稿では,フーリエ解析による周波数空間におけるバックドアlmsの学習機構について検討する。
以上の結果から, 汚染されたデータセットに提示されたバックドアマッピングは, クリーンマッピングよりも低周波傾向が顕著であり, バックドアマッピングの収束が早いことが示唆された。
このジレンマを緩和するために,マルチスケール低ランク適応法(musclelora)を提案する。対象モデルに低ランク適応を加えて周波数空間に複数のラジアルスケーリングを展開し,パラメータ更新時の勾配をさらに調整する。
周波数空間のダウンスケーリングを通じて、MuScleLoRAは比較的高周波なクリーンマッピングの学習を優先させ、結果としてバックドア学習を緩和する。
実験の結果, MuScleLoRAはベースラインを著しく上回ることがわかった。
muscleloraは、さまざまなバックドア攻撃の平均成功率を複数のデータセットで15\%以下に削減し、bert、roberta、llama2を含む様々なバックボーンlmmに一般化する。
コードはhttps://github.com/zrw00/muscleloraで入手できる。
関連論文リスト
- When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に対して脆弱である。
本稿では,自然言語説明の新しいレンズを用いたバックドア機能について検討する。
論文 参考訳(メタデータ) (2024-11-19T18:11:36Z) - CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization [7.282200564983221]
大規模言語モデル(LLM)は、バックドア攻撃の影響を受けやすい。
バックドアトリガによる階層的不整合に対処するために、内部一貫性規則化(CROW)を導入する。
CROWは、さまざまなバックドア戦略やタスクにおける攻撃成功率の大幅な削減を一貫して達成している。
論文 参考訳(メタデータ) (2024-11-18T07:52:12Z) - MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - Revisiting Backdoor Attacks against Large Vision-Language Models [76.42014292255944]
本稿では,LVLMの命令チューニングにおけるバックドア攻撃の一般化可能性について実験的に検討する。
以上に基づいて,既存のバックドア攻撃を修正した。
本稿では,従来のシンプルなバックドア戦略でさえ,LVLMに深刻な脅威をもたらすことを指摘する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - Backdoor Removal for Generative Large Language Models [42.19147076519423]
生成型大規模言語モデル(LLM)は、理解から推論まで、様々な自然言語処理(NLP)タスクを支配している。
悪意のある敵は、毒データをオンラインで公開し、毒データに基づいて事前訓練された被害者のLSMに対するバックドア攻撃を行うことができる。
生成LDMの不要なバックドアマッピングを除去するためにSANDE(Simulate and Eliminate)を提案する。
論文 参考訳(メタデータ) (2024-05-13T11:53:42Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Backdoor Attack and Defense for Deep Regression [23.20365307988698]
回帰に使用するディープニューラルネットワークに対するバックドア攻撃を実演する。
バックドア攻撃はトレーニングセットのデータ中毒に基づいてローカライズされる。
また,局所誤差最大化器の勾配に基づく発見によるバックドアディフェンスの性能評価を行った。
論文 参考訳(メタデータ) (2021-09-06T11:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。