論文の概要: Obliviate: Neutralizing Task-agnostic Backdoors within the Parameter-efficient Fine-tuning Paradigm
- arxiv url: http://arxiv.org/abs/2409.14119v3
- Date: Sun, 6 Oct 2024 09:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 03:33:25.628690
- Title: Obliviate: Neutralizing Task-agnostic Backdoors within the Parameter-efficient Fine-tuning Paradigm
- Title(参考訳): Obliviate:パラメータ効率のよい微調整パラダイムにおけるタスク非依存のバックドアの中立化
- Authors: Jaehan Kim, Minkyoo Song, Seung Ho Na, Seungwon Shin,
- Abstract要約: PEFT統合バックドアディフェンスであるObliviateを紹介する。
我々は,PEFT層内の良性ニューロンを増幅し,トリガートークンの影響を罰する2つの手法を開発した。
本手法は,タスク固有のバックドアとアダプティブアタックに対する堅牢な防御能力を示す。
- 参考スコア(独自算出の注目度): 8.905741632785183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) has become a key training strategy for large language models. However, its reliance on fewer trainable parameters poses security risks, such as task-agnostic backdoors. Despite their severe impact on a wide range of tasks, there is no practical defense solution available that effectively counters task-agnostic backdoors within the context of PEFT. In this study, we introduce Obliviate, a PEFT-integrable backdoor defense. We develop two techniques aimed at amplifying benign neurons within PEFT layers and penalizing the influence of trigger tokens. Our evaluations across three major PEFT architectures show that our method can significantly reduce the attack success rate of the state-of-the-art task-agnostic backdoors (83.6%$\downarrow$). Furthermore, our method exhibits robust defense capabilities against both task-specific backdoors and adaptive attacks. Source code will be obtained at https://github.com/obliviateARR/Obliviate.
- Abstract(参考訳): パラメータ効率のよい微調整(PEFT)は,大規模言語モデルにおいて重要な訓練戦略となっている。
しかし、トレーニング可能なパラメータが少ないため、タスクに依存しないバックドアのようなセキュリティリスクが生じる。
幅広いタスクに深刻な影響を与えるにもかかわらず、PEFTのコンテキスト内でタスク非依存のバックドアを効果的に対処する実用的な防御ソリューションは存在しない。
本研究では,PEFT統合型バックドアディフェンスであるObliviateを紹介する。
我々は,PEFT層内の良性ニューロンを増幅し,トリガートークンの影響を罰する2つの手法を開発した。
本手法は,3つのPEFTアーキテクチャを対象とした評価により,最先端のタスク非依存バックドア(83.6%$\downarrow$)の攻撃成功率を大幅に低減できることを示す。
さらに,タスク固有のバックドアとアダプティブアタックに対する堅牢な防御能力を示す。
ソースコードはhttps://github.com/obliviateARR/Obliviateで取得できる。
関連論文リスト
- Unlearning Backdoor Attacks for LLMs with Weak-to-Strong Knowledge Distillation [10.888542040021962]
W2SDefenseは、バックドア攻撃から防御する弱い学習アルゴリズムである。
我々は3つの最先端言語モデルと3つの異なるバックドア攻撃アルゴリズムを含むテキスト分類タスクについて実験を行った。
論文 参考訳(メタデータ) (2024-10-18T12:39:32Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Weak-to-Strong Backdoor Attack for Large Language Models [15.055037707091435]
特徴アライメント強化知識蒸留(W2SAttack)に基づく新しいバックドア攻撃アルゴリズムを提案する。
我々は,W2SAttackが4つの言語モデル,4つのバックドアアタックアルゴリズム,および2つの異なる教師モデルのアーキテクチャの分類タスクにおいて優れていることを示す。
論文 参考訳(メタデータ) (2024-09-26T15:20:37Z) - TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models [69.37990698561299]
TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。
提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。
広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
論文 参考訳(メタデータ) (2024-05-27T03:10:57Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning [57.50274256088251]
パラメータ効率のよい微調整(PEFT)は,重み付けによるバックドア攻撃の影響を受けやすいことを示す。
PEFTを利用したPSIM(Poisoned Sample Identification Module)を開発した。
テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。
論文 参考訳(メタデータ) (2024-02-19T14:22:54Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - SoK: A Systematic Evaluation of Backdoor Trigger Characteristics in
Image Classification [21.424907311421197]
ディープラーニングは、トレーニングセットを変更してトレーニングモデルに秘密機能を埋め込むバックドア攻撃に対して脆弱である。
本稿では,バックドア攻撃の最も関連性の高いパラメータを系統的に分析する。
私たちの攻撃は、研究におけるバックドア設定の大部分をカバーし、将来の作業に具体的な方向性を提供します。
論文 参考訳(メタデータ) (2023-02-03T14:00:05Z) - Stealthy Backdoor Attack for Code Models [19.272856932095966]
既存のコードモデルに対するバックドア攻撃では、不便で簡単に検出できるトリガーが使用される。
本稿では、ステルスなバックドア攻撃によるコードモデルの脆弱性を調査することを目的とする。
AFRAIDOORにおけるアダプティブトリガーの約85%が、防衛プロセスにおける検出をバイパスしていることがわかった。
論文 参考訳(メタデータ) (2023-01-06T13:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。