論文の概要: Weak-To-Strong Backdoor Attacks for LLMs with Contrastive Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2409.17946v1
- Date: Thu, 26 Sep 2024 15:20:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 16:52:13.045872
- Title: Weak-To-Strong Backdoor Attacks for LLMs with Contrastive Knowledge Distillation
- Title(参考訳): コントラスト的知識蒸留によるLDMの弱相関バックドアアタック
- Authors: Shuai Zhao, Leilei Gan, Zhongliang Guo, Xiaobao Wu, Luwei Xiao, Xiaoyu Xu, Cong-Duy Nguyen, Luu Anh Tuan,
- Abstract要約: 対照的な知識蒸留(W2SAttack)に基づく新しいバックドア攻撃アルゴリズムを提案する。
W2SAttackが4つの言語モデルにまたがる分類タスクにおいて優れた性能を示す。
実験の結果,PEFTを標的としたバックドア攻撃では100%に近い成功率を示した。
- 参考スコア(独自算出の注目度): 15.055037707091435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite being widely applied due to their exceptional capabilities, Large Language Models (LLMs) have been proven to be vulnerable to backdoor attacks. These attacks introduce targeted vulnerabilities into LLMs by poisoning training samples and full-parameter fine-tuning. However, this kind of backdoor attack is limited since they require significant computational resources, especially as the size of LLMs increases. Besides, parameter-efficient fine-tuning (PEFT) offers an alternative but the restricted parameter updating may impede the alignment of triggers with target labels. In this study, we first verify that backdoor attacks with PEFT may encounter challenges in achieving feasible performance. To address these issues and improve the effectiveness of backdoor attacks with PEFT, we propose a novel backdoor attack algorithm from weak to strong based on contrastive knowledge distillation (W2SAttack). Specifically, we poison small-scale language models through full-parameter fine-tuning to serve as the teacher model. The teacher model then covertly transfers the backdoor to the large-scale student model through contrastive knowledge distillation, which employs PEFT. Theoretical analysis reveals that W2SAttack has the potential to augment the effectiveness of backdoor attacks. We demonstrate the superior performance of W2SAttack on classification tasks across four language models, four backdoor attack algorithms, and two different architectures of teacher models. Experimental results indicate success rates close to 100% for backdoor attacks targeting PEFT.
- Abstract(参考訳): 例外的な能力のために広く適用されているにもかかわらず、Large Language Models (LLM)はバックドア攻撃に弱いことが証明されている。
これらの攻撃は、トレーニングサンプルやフルパラメータの微調整によってLLMに標的の脆弱性をもたらす。
しかし、このようなバックドア攻撃は、特にLLMのサイズが大きくなるにつれて、かなりの計算資源を必要とするため、制限されている。
さらに、パラメータ効率の良い微調整(PEFT)は代替手段を提供するが、制限されたパラメータの更新は、トリガーとターゲットラベルのアライメントを妨げる可能性がある。
本研究では,PEFTによるバックドア攻撃が,実現可能な性能を達成する上での課題に直面する可能性があることを確認する。
これらの問題に対処し,PEFTによるバックドアアタックの有効性を向上させるために,コントラスト的知識蒸留(W2SAttack)に基づくバックドアアタックアルゴリズムを提案する。
具体的には、教師モデルとして機能するために、フルパラメータ細調整による小規模言語モデルに毒を盛る。
教師モデルは,PEFTを用いた対照的な知識蒸留を通じて,バックドアを大規模学生モデルに隠蔽的に転送する。
理論的解析によると、W2SAttackはバックドア攻撃の有効性を高める可能性がある。
我々は,W2SAttackが4つの言語モデル,4つのバックドアアタックアルゴリズム,および2つの異なる教師モデルのアーキテクチャの分類タスクにおいて優れていることを示す。
実験の結果,PEFTを標的としたバックドア攻撃では100%に近い成功率を示した。
関連論文リスト
- Unlearning Backdoor Attacks for LLMs with Weak-to-Strong Knowledge Distillation [10.888542040021962]
W2SDefenseは、バックドア攻撃から防御する弱い学習アルゴリズムである。
我々は3つの最先端言語モデルと3つの異なるバックドア攻撃アルゴリズムを含むテキスト分類タスクについて実験を行った。
論文 参考訳(メタデータ) (2024-10-18T12:39:32Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Obliviate: Neutralizing Task-agnostic Backdoors within the Parameter-efficient Fine-tuning Paradigm [8.905741632785183]
PEFT統合バックドアディフェンスであるObliviateを紹介する。
我々は,PEFT層内の良性ニューロンを増幅し,トリガートークンの影響を罰する2つの手法を開発した。
本手法は,タスク固有のバックドアとアダプティブアタックに対する堅牢な防御能力を示す。
論文 参考訳(メタデータ) (2024-09-21T12:20:18Z) - Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor [0.24335447922683692]
基盤となるモデルアーキテクチャ内に隠蔽する新しいタイプのバックドアアタックを導入します。
モデルアーキテクチャレイヤのアドオンモジュールは、入力トリガトークンの存在を検出し、レイヤの重みを変更することができる。
我々は,5つの大言語データセットの2つのモデルアーキテクチャ設定を用いて,攻撃方法を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-09-03T14:54:16Z) - Transferring Backdoors between Large Language Models by Knowledge Distillation [2.9138150728729064]
バックドア攻撃は大規模言語モデル(LLM)に対する深刻な脆弱性である。
従来の手法では、特定のモデルでのみそのようなリスクを明らかにしたり、事前訓練されたフェーズを攻撃した後のタスク転送可能性を示す。
本研究では,教師LLMのバックドアを小型モデルに効果的に蒸留できる適応的トランスファー可能なバックドアアタックであるATBAを提案する。
論文 参考訳(メタデータ) (2024-08-19T10:39:45Z) - TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models [69.37990698561299]
TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。
提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。
広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
論文 参考訳(メタデータ) (2024-05-27T03:10:57Z) - Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning [57.50274256088251]
パラメータ効率のよい微調整(PEFT)は,重み付けによるバックドア攻撃の影響を受けやすいことを示す。
PEFTを利用したPSIM(Poisoned Sample Identification Module)を開発した。
テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。
論文 参考訳(メタデータ) (2024-02-19T14:22:54Z) - Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。
本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。
この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文 参考訳(メタデータ) (2023-12-31T06:43:36Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - SoK: A Systematic Evaluation of Backdoor Trigger Characteristics in
Image Classification [21.424907311421197]
ディープラーニングは、トレーニングセットを変更してトレーニングモデルに秘密機能を埋め込むバックドア攻撃に対して脆弱である。
本稿では,バックドア攻撃の最も関連性の高いパラメータを系統的に分析する。
私たちの攻撃は、研究におけるバックドア設定の大部分をカバーし、将来の作業に具体的な方向性を提供します。
論文 参考訳(メタデータ) (2023-02-03T14:00:05Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。