論文の概要: Pruning Strategies for Backdoor Defense in LLMs
- arxiv url: http://arxiv.org/abs/2508.20032v1
- Date: Wed, 27 Aug 2025 16:34:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.70882
- Title: Pruning Strategies for Backdoor Defense in LLMs
- Title(参考訳): LLMにおけるバックドアディフェンスのためのプルーニング戦略
- Authors: Santosh Chapagain, Shah Muhammad Hamdi, Soukaina Filali Boubrahimi,
- Abstract要約: バックドア攻撃は、事前訓練された言語モデルのパフォーマンスと完全性に対する重大な脅威である。
本研究では,これらの脅威に対して,クリーンな参照モデルへのアクセスやトリガーの知識を必要とせず,注意喚起が軽減できるかどうかを考察する。
- 参考スコア(独自算出の注目度): 0.3441021278275805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks are a significant threat to the performance and integrity of pre-trained language models. Although such models are routinely fine-tuned for downstream NLP tasks, recent work shows they remain vulnerable to backdoor attacks that survive vanilla fine-tuning. These attacks are difficult to defend because end users typically lack knowledge of the attack triggers. Such attacks consist of stealthy malicious triggers introduced through subtle syntactic or stylistic manipulations, which can bypass traditional detection and remain in the model, making post-hoc purification essential. In this study, we explore whether attention-head pruning can mitigate these threats without any knowledge of the trigger or access to a clean reference model. To this end, we design and implement six pruning-based strategies: (i) gradient-based pruning, (ii) layer-wise variance pruning, (iii) gradient-based pruning with structured L1/L2 sparsification, (iv) randomized ensemble pruning, (v) reinforcement-learning-guided pruning, and (vi) Bayesian uncertainty pruning. Each method iteratively removes the least informative heads while monitoring validation accuracy to avoid over-pruning. Experimental evaluation shows that gradient-based pruning performs best while defending the syntactic triggers, whereas reinforcement learning and Bayesian pruning better withstand stylistic attacks.
- Abstract(参考訳): バックドア攻撃は、事前訓練された言語モデルのパフォーマンスと完全性に対する重大な脅威である。
このようなモデルは、下流のNLPタスクに対して日常的に微調整されているが、最近の研究は、バニラ微調整に耐えるバックドア攻撃に対して脆弱であることを示している。
これらの攻撃は、エンドユーザーが通常攻撃トリガーの知識を欠いているため、防御が難しい。
このような攻撃は、微妙な構文的またはスタイリスティックな操作によって導入されたステルスな悪意のあるトリガーで構成されており、従来の検出を回避し、モデルに留まり、ポストホックの浄化が不可欠である。
本研究では,これらの脅威に対して,クリーンな参照モデルへのアクセスやトリガーの知識を必要とせず,注意喚起が軽減できるかどうかを考察する。
この目的のために、我々は6つのプルーニングベースの戦略を設計し、実装する。
(i)勾配式プルーニング
(II)層状分散プルーニング
三 構造L1/L2スパリフィケーションによる勾配式プルーニング
(四)ランダムアンサンブルプルーニング
五 強化学習指導プルーニング、及び
(vi)ベイズの不確実性刈取。
各メソッドは、オーバープルーニングを回避するため、検証精度を監視しながら、最小情報ヘッドを反復的に除去する。
実験により, 勾配型プルーニングは構文的トリガーを防御するのに対して, 強化学習とベイズ的プルーニングはスタイリスティックな攻撃に耐えることがわかった。
関連論文リスト
- InverTune: Removing Backdoors from Multimodal Contrastive Learning Models via Trigger Inversion and Activation Tuning [36.56302680556252]
InverTuneは、最小限の攻撃仮定の下で、マルチモーダルモデルのための最初のバックドアディフェンスフレームワークである。
InverTuneは、3つの主要なコンポーネントを通じてバックドアアーティファクトを効果的に識別し、削除し、バックドアアタックに対する堅牢な保護を実現する。
実験の結果、InverTuneは最先端(SOTA)攻撃に対して平均攻撃成功率(ASR)を97.87%削減した。
論文 参考訳(メタデータ) (2025-06-14T09:08:34Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - BadGD: A unified data-centric framework to identify gradient descent vulnerabilities [10.996626204702189]
BadGDは、敵の操作を理解し緩和するための新しい標準を設定している。
この研究は、このようなデータ中心の攻撃によって引き起こされる深刻な脅威を強調し、機械学習における堅牢な防御の必要性を強調している。
論文 参考訳(メタデータ) (2024-05-24T23:39:45Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。