論文の概要: Gracefully Filtering Backdoor Samples for Generative Large Language Models without Retraining
- arxiv url: http://arxiv.org/abs/2412.02454v1
- Date: Tue, 03 Dec 2024 13:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:50:59.374256
- Title: Gracefully Filtering Backdoor Samples for Generative Large Language Models without Retraining
- Title(参考訳): 学習を伴わない大規模言語モデルのための後方サンプルのグレースワイズフィルタ
- Authors: Zongru Wu, Pengzhou Cheng, Lingyong Fang, Zhuosheng Zhang, Gongshen Liu,
- Abstract要約: バックドア攻撃は、生成型大規模言語モデル(LLM)に対する重大なセキュリティ脅威である
GraCeFulは、周波数空間におけるサンプルワイド勾配を使用して、LLMの再トレーニングを必要とせずに、バックドアサンプルを識別する。
GraCeFulは卓越した計算効率を示し、バックドアサンプルの識別に100%のリコールとF1スコアを達成している。
- 参考スコア(独自算出の注目度): 16.76094864625033
- License:
- Abstract: Backdoor attacks remain significant security threats to generative large language models (LLMs). Since generative LLMs output sequences of high-dimensional token logits instead of low-dimensional classification logits, most existing backdoor defense methods designed for discriminative models like BERT are ineffective for generative LLMs. Inspired by the observed differences in learning behavior between backdoor and clean mapping in the frequency space, we transform gradients of each training sample, directly influencing parameter updates, into the frequency space. Our findings reveal a distinct separation between the gradients of backdoor and clean samples in the frequency space. Based on this phenomenon, we propose Gradient Clustering in the Frequency Space for Backdoor Sample Filtering (GraCeFul), which leverages sample-wise gradients in the frequency space to effectively identify backdoor samples without requiring retraining LLMs. Experimental results show that GraCeFul outperforms baselines significantly. Notably, GraCeFul exhibits remarkable computational efficiency, achieving nearly 100% recall and F1 scores in identifying backdoor samples, reducing the average success rate of various backdoor attacks to 0% with negligible drops in clean accuracy across multiple free-style question answering datasets. Additionally, GraCeFul generalizes to Llama-2 and Vicuna. The codes are publicly available at https://github.com/ZrW00/GraceFul.
- Abstract(参考訳): バックドア攻撃は、生成的大規模言語モデル(LLM)にとって重要なセキュリティ脅威である。
低次元の分類ロジットの代わりに高次元のトークンロジットを生成するため、BERTのような識別モデルのために設計された既存のバックドアディフェンス法は、生成LLMには効果がない。
周波数空間におけるバックドアとクリーンマッピングの学習行動の違いに着想を得て、各トレーニングサンプルの勾配をパラメータ更新に直接影響し、周波数空間に変換する。
本研究により, バックドアの勾配と周波数空間の清浄な試料との分離が明らかとなった。
この現象に基づいて,LLMの再トレーニングを必要とせずに,周波数空間における試料勾配を利用してバックドアサンプルを効果的に同定する,バックドアサンプルフィルタ用周波数空間の勾配クラスタリング(GraCeFul)を提案する。
実験の結果、GraCeFulはベースラインを著しく上回ることがわかった。
特に、GraCeFulは計算効率が優れており、バックドアのサンプルを特定する際に、100%近いリコールとF1スコアを達成している。
さらに、GraCeFul は Llama-2 と Vicuna に一般化する。
コードはhttps://github.com/ZrW00/GraceFul.comで公開されている。
関連論文リスト
- CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization [7.282200564983221]
大規模言語モデル(LLM)は、バックドア攻撃の影響を受けやすい。
バックドアトリガによる階層的不整合に対処するために、内部一貫性規則化(CROW)を導入する。
CROWは、さまざまなバックドア戦略やタスクにおける攻撃成功率の大幅な削減を一貫して達成している。
論文 参考訳(メタデータ) (2024-11-18T07:52:12Z) - Backdoor Defense through Self-Supervised and Generative Learning [0.0]
このようなデータのトレーニングは、選択されたテストサンプルに悪意のある推論を引き起こすバックドアを注入する。
本稿では,自己教師付き表現空間におけるクラスごとの分布生成モデルに基づくアプローチを提案する。
どちらの場合も、クラスごとの生成モデルにより、有毒なデータを検出し、データセットをクリーン化することができます。
論文 参考訳(メタデータ) (2024-09-02T11:40:01Z) - MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - UFID: A Unified Framework for Input-level Backdoor Detection on Diffusion Models [19.46962670935554]
拡散モデルはバックドア攻撃に弱い。
UFIDと呼ばれる拡散モデルに基づくブラックボックス入力レベルのバックドア検出フレームワークを提案する。
本手法は,検出効率と実行時間効率において高い性能を実現する。
論文 参考訳(メタデータ) (2024-04-01T13:21:05Z) - Acquiring Clean Language Models from Backdoor Poisoned Datasets by Downscaling Frequency Space [17.98191594223406]
周波数空間におけるバックドアLMの学習機構をフーリエ解析により検討した。
本稿では,マルチスケール低ランク適応 (MuScleLoRA) を提案する。
MuScleLoRAは、さまざまなバックドア攻撃の平均成功率を、複数のデータセットで15%以下に削減する。
論文 参考訳(メタデータ) (2024-02-19T10:34:48Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。