論文の概要: Pruning and Malicious Injection: A Retraining-Free Backdoor Attack on Transformer Models
- arxiv url: http://arxiv.org/abs/2508.10243v1
- Date: Thu, 14 Aug 2025 00:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.139942
- Title: Pruning and Malicious Injection: A Retraining-Free Backdoor Attack on Transformer Models
- Title(参考訳): Pruning and malicious Injection: A Retraining-Free Backdoor Attack on Transformer Models (特集:バイオサイバネティックスとバイオサイバネティックス)
- Authors: Taibiao Zhao, Mingxuan Sun, Hao Wang, Xiaobing Chen, Xiangwei Zhou,
- Abstract要約: Head-wise Pruning and Malicious Injection (HPMI)は、トランスフォーマーに対する新規なリトレーニングフリーバックドア攻撃である。
HPMIは、最も重要でない頭部を刈り取り、訓練済みの悪意のある頭部を注入してバックドアを確立する。
我々はHPMIが無視できるクリーンな精度の損失を発生し、2)少なくとも99.55%の攻撃成功率を達成し、3)先進的な4つの防御機構を回避していることを示す。
- 参考スコア(独自算出の注目度): 12.237775023198491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models have demonstrated exceptional performance and have become indispensable in computer vision (CV) and natural language processing (NLP) tasks. However, recent studies reveal that transformers are susceptible to backdoor attacks. Prior backdoor attack methods typically rely on retraining with clean data or altering the model architecture, both of which can be resource-intensive and intrusive. In this paper, we propose Head-wise Pruning and Malicious Injection (HPMI), a novel retraining-free backdoor attack on transformers that does not alter the model's architecture. Our approach requires only a small subset of the original data and basic knowledge of the model architecture, eliminating the need for retraining the target transformer. Technically, HPMI works by pruning the least important head and injecting a pre-trained malicious head to establish the backdoor. We provide a rigorous theoretical justification demonstrating that the implanted backdoor resists detection and removal by state-of-the-art defense techniques, under reasonable assumptions. Experimental evaluations across multiple datasets further validate the effectiveness of HPMI, showing that it 1) incurs negligible clean accuracy loss, 2) achieves at least 99.55% attack success rate, and 3) bypasses four advanced defense mechanisms. Additionally, relative to state-of-the-art retraining-dependent attacks, HPMI achieves greater concealment and robustness against diverse defense strategies, while maintaining minimal impact on clean accuracy.
- Abstract(参考訳): トランスフォーマーモデルは異常な性能を示しており、コンピュータビジョン(CV)や自然言語処理(NLP)タスクでは不可欠になっている。
しかし、最近の研究では、トランスフォーマーはバックドア攻撃の影響を受けやすいことが示されている。
従来のバックドアアタックメソッドは、通常、クリーンなデータで再トレーニングしたり、モデルアーキテクチャを変更することに依存します。
本稿では, モデルアーキテクチャを変更しないトランスフォーマーに対する, 新規なリトレーニングフリーバックドアアタックであるHyd-wise Pruning and Malicious Injection (HPMI)を提案する。
我々のアプローチでは、オリジナルのデータとモデルアーキテクチャの基本知識のごく一部しか必要とせず、ターゲットのトランスフォーマーを再トレーニングする必要がなくなる。
技術的には、HPMIは最も重要でない頭部を刈り取り、訓練済みの悪意のある頭部を注入してバックドアを確立する。
埋設したバックドアは, 適切な仮定の下で, 最先端の防御技術による検出・除去に抵抗することを示す厳密な理論的正当性を示す。
複数のデータセットにまたがる実験的評価により,HPMIの有効性がさらに検証され,その有効性が示された。
1) 無視できる清潔な精度の損失を生じさせる。
2)少なくとも99.55%の攻撃成功率を達成し、
3) 先進的な4つの防御機構をバイパスする。
さらに、最先端の再訓練による攻撃とは対照的に、HPMIはさまざまな防御戦略に対してより隠蔽と堅牢性を達成し、クリーンな精度への影響を最小限に抑えている。
関連論文リスト
- InverTune: Removing Backdoors from Multimodal Contrastive Learning Models via Trigger Inversion and Activation Tuning [36.56302680556252]
InverTuneは、最小限の攻撃仮定の下で、マルチモーダルモデルのための最初のバックドアディフェンスフレームワークである。
InverTuneは、3つの主要なコンポーネントを通じてバックドアアーティファクトを効果的に識別し、削除し、バックドアアタックに対する堅牢な保護を実現する。
実験の結果、InverTuneは最先端(SOTA)攻撃に対して平均攻撃成功率(ASR)を97.87%削減した。
論文 参考訳(メタデータ) (2025-06-14T09:08:34Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in Pre-trained Vision-Language Models [42.81731204702258]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトによって間接的に汚染された視覚言語モデル(VLM)を浄化する効率的な方法である。
CBPTは、7つの主要なバックドア攻撃に対して平均的クリーン精度(CA)58.86%、アタック成功率(ASR)0.39%のモデルユーティリティを維持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - REFINE: Inversion-Free Backdoor Defense via Model Reprogramming [60.554146386198376]
ディープニューラルネットワーク(DNN)に対するバックドア攻撃は、重大なセキュリティ脅威として浮上している。
モデル再プログラミングに基づく逆フリーバックドア防御手法であるREFINEを提案する。
論文 参考訳(メタデータ) (2025-02-22T07:29:12Z) - Data Free Backdoor Attacks [83.10379074100453]
DFBAは、モデルアーキテクチャを変更することなく、リトレーニングフリーでデータフリーのバックドア攻撃である。
我々の注入されたバックドアは、様々な最先端の防御策によって、検出不可能で、検出不能であることを確認した。
複数のデータセットに対する評価では,1) 無視可能な分類損失,2) 攻撃成功率,3) 既存の6つの防御を回避している。
論文 参考訳(メタデータ) (2024-12-09T05:30:25Z) - Behavior Backdoor for Deep Learning Models [95.50787731231063]
我々は,行動訓練されたバックドアモデルトレーニング手順として定義された行動バックドアアタックに向けた第一歩を踏み出す。
本稿では,行動バックドアを実装する最初のパイプライン,すなわち量子バックドア(QB)攻撃を提案する。
さまざまなモデル、データセット、タスクで実験が行われ、この新たなバックドア攻撃の有効性が実証された。
論文 参考訳(メタデータ) (2024-12-02T10:54:02Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Gradient Shaping: Enhancing Backdoor Attack Against Reverse Engineering [39.11590429626592]
勾配に基づくトリガーインバージョンは、最も効果的なバックドア検出手法の1つであると考えられている。
本研究は, 既存の攻撃は, トリガーキャリング入力に伴う変化率の低いバックドアを注入する傾向にあることを示した。
textitGradient Shaping(GRASP)と呼ばれる新たな攻撃強化を設計し、トリガに関するバックドアモデルの変更率を削減する。
論文 参考訳(メタデータ) (2023-01-29T01:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。