Fugu-MT 論文翻訳(概要): Weak-to-Strong Backdoor Attack for Large Language Models

論文の概要: Weak-to-Strong Backdoor Attack for Large Language Models

arxiv url: http://arxiv.org/abs/2409.17946v3
Date: Sun, 13 Oct 2024 06:33:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 16:00:56.844907
Title: Weak-to-Strong Backdoor Attack for Large Language Models
Title（参考訳）: 大規模言語モデルに対する弱ストロングバックドアアタック
Authors: Shuai Zhao, Leilei Gan, Zhongliang Guo, Xiaobao Wu, Luwei Xiao, Xiaoyu Xu, Cong-Duy Nguyen, Luu Anh Tuan,
Abstract要約: 特徴アライメント強化知識蒸留(W2SAttack)に基づく新しいバックドア攻撃アルゴリズムを提案する。我々は,W2SAttackが4つの言語モデル,4つのバックドアアタックアルゴリズム,および2つの異なる教師モデルのアーキテクチャの分類タスクにおいて優れていることを示す。
参考スコア（独自算出の注目度）: 15.055037707091435
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite being widely applied due to their exceptional capabilities, Large Language Models (LLMs) have been proven to be vulnerable to backdoor attacks. These attacks introduce targeted vulnerabilities into LLMs by poisoning training samples and full-parameter fine-tuning. However, this kind of backdoor attack is limited since they require significant computational resources, especially as the size of LLMs increases. Besides, parameter-efficient fine-tuning (PEFT) offers an alternative but the restricted parameter updating may impede the alignment of triggers with target labels. In this study, we first verify that backdoor attacks with PEFT may encounter challenges in achieving feasible performance. To address these issues and improve the effectiveness of backdoor attacks with PEFT, we propose a novel backdoor attack algorithm from weak to strong based on feature alignment-enhanced knowledge distillation (W2SAttack). Specifically, we poison small-scale language models through full-parameter fine-tuning to serve as the teacher model. The teacher model then covertly transfers the backdoor to the large-scale student model through feature alignment-enhanced knowledge distillation, which employs PEFT. Theoretical analysis reveals that W2SAttack has the potential to augment the effectiveness of backdoor attacks. We demonstrate the superior performance of W2SAttack on classification tasks across four language models, four backdoor attack algorithms, and two different architectures of teacher models. Experimental results indicate success rates close to 100% for backdoor attacks targeting PEFT.
Abstract（参考訳）: 例外的な能力のために広く適用されているにもかかわらず、Large Language Models (LLM)はバックドア攻撃に弱いことが証明されている。これらの攻撃は、トレーニングサンプルやフルパラメータの微調整によってLLMに標的の脆弱性をもたらす。しかし、このようなバックドア攻撃は、特にLLMのサイズが大きくなるにつれて、かなりの計算資源を必要とするため、制限されている。さらに、パラメータ効率の良い微調整(PEFT)は代替手段を提供するが、制限されたパラメータの更新は、トリガーとターゲットラベルのアライメントを妨げる可能性がある。本研究では,PEFTによるバックドア攻撃が,実現可能な性能を達成する上での課題に直面する可能性があることを確認する。これらの問題に対処し,PEFTによるバックドアアタックの有効性を向上させるために,機能的アライメント強化知識蒸留(W2SAttack)に基づくバックドアアタックアルゴリズムを提案する。具体的には、教師モデルとして機能するために、フルパラメータ細調整による小規模言語モデルに毒を盛る。教師モデルは,PEFTを用いた機能的アライメント強化知識蒸留を通じて,バックドアを大規模学生モデルに隠蔽的に転送する。理論的解析によると、W2SAttackはバックドア攻撃の有効性を高める可能性がある。我々は,W2SAttackが4つの言語モデル,4つのバックドアアタックアルゴリズム,および2つの異なる教師モデルのアーキテクチャの分類タスクにおいて優れていることを示す。実験の結果,PEFTを標的としたバックドア攻撃では100%に近い成功率を示した。

関連論文リスト

Lethe: Purifying Backdoored Large Language Models with Knowledge Dilution [49.78359632298156]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを達成し、大幅な進歩を遂げている。標準クエリではモデルが正常に動作しますが、特定のトリガがアクティブになると、有害な応答や意図しない出力を生成します。本稿では,LLMからのバックドアの挙動を知識希釈により除去する新しい手法LETHEを提案する。
論文参考訳（メタデータ） (2025-08-28T17:05:18Z)
ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。 $textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。 $textitELBA-Bench$は1300以上の実験を提供する。
論文参考訳（メタデータ） (2025-02-22T12:55:28Z)
Backdoor Token Unlearning: Exposing and Defending Backdoors in Pretrained Language Models [9.995807326278959]
トレーニング期間中にトリガトークンを積極的に検出・中和するバックドアトークンアンラーニング(BTU)と呼ばれる新しい防衛手法を提案する。裏口学習は, 単語埋め込み層において, 裏口トークンパラメータとクリーントークンパラメータの区別を生じさせ, 裏口攻撃の成功は裏口トークンパラメータに大きく依存する。
論文参考訳（メタデータ） (2025-01-05T03:22:13Z)
Data Free Backdoor Attacks [83.10379074100453]
DFBAは、モデルアーキテクチャを変更することなく、リトレーニングフリーでデータフリーのバックドア攻撃である。我々の注入されたバックドアは、様々な最先端の防御策によって、検出不可能で、検出不能であることを確認した。複数のデータセットに対する評価では,1) 無視可能な分類損失,2) 攻撃成功率,3) 既存の6つの防御を回避している。
論文参考訳（メタデータ） (2024-12-09T05:30:25Z)
Unlearning Backdoor Attacks for LLMs with Weak-to-Strong Knowledge Distillation [10.888542040021962]
W2SDefenseは、バックドア攻撃から防御する弱い学習アルゴリズムである。我々は3つの最先端言語モデルと3つの異なるバックドア攻撃アルゴリズムを含むテキスト分類タスクについて実験を行った。
論文参考訳（メタデータ） (2024-10-18T12:39:32Z)
Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文参考訳（メタデータ） (2024-09-29T02:55:38Z)
Obliviate: Neutralizing Task-agnostic Backdoors within the Parameter-efficient Fine-tuning Paradigm [8.905741632785183]
PEFT統合バックドアディフェンスであるObliviateを紹介する。我々は,PEFT層内の良性ニューロンを増幅し,トリガートークンの影響を罰する2つの手法を開発した。本手法は,タスク固有のバックドアとアダプティブアタックに対する堅牢な防御能力を示す。
論文参考訳（メタデータ） (2024-09-21T12:20:18Z)
Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor [0.24335447922683692]
基盤となるモデルアーキテクチャ内に隠蔽する新しいタイプのバックドアアタックを導入します。モデルアーキテクチャレイヤのアドオンモジュールは、入力トリガトークンの存在を検出し、レイヤの重みを変更することができる。我々は,5つの大言語データセットの2つのモデルアーキテクチャ設定を用いて,攻撃方法を評価するための広範囲な実験を行った。
論文参考訳（メタデータ） (2024-09-03T14:54:16Z)
MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文参考訳（メタデータ） (2024-08-20T10:44:29Z)
Transferring Backdoors between Large Language Models by Knowledge Distillation [2.9138150728729064]
バックドア攻撃は大規模言語モデル(LLM)に対する深刻な脆弱性である。従来の手法では、特定のモデルでのみそのようなリスクを明らかにしたり、事前訓練されたフェーズを攻撃した後のタスク転送可能性を示す。本研究では,教師LLMのバックドアを小型モデルに効果的に蒸留できる適応的トランスファー可能なバックドアアタックであるATBAを提案する。
論文参考訳（メタデータ） (2024-08-19T10:39:45Z)
TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models [69.37990698561299]
TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
論文参考訳（メタデータ） (2024-05-27T03:10:57Z)
Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning [57.50274256088251]
パラメータ効率のよい微調整(PEFT)は,重み付けによるバックドア攻撃の影響を受けやすいことを示す。 PEFTを利用したPSIM(Poisoned Sample Identification Module)を開発した。テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。
論文参考訳（メタデータ） (2024-02-19T14:22:54Z)
Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文参考訳（メタデータ） (2023-12-31T06:43:36Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)
SoK: A Systematic Evaluation of Backdoor Trigger Characteristics in Image Classification [21.424907311421197]
ディープラーニングは、トレーニングセットを変更してトレーニングモデルに秘密機能を埋め込むバックドア攻撃に対して脆弱である。本稿では,バックドア攻撃の最も関連性の高いパラメータを系統的に分析する。私たちの攻撃は、研究におけるバックドア設定の大部分をカバーし、将来の作業に具体的な方向性を提供します。
論文参考訳（メタデータ） (2023-02-03T14:00:05Z)
Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文参考訳（メタデータ） (2021-06-11T13:03:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。