論文の概要: Backdoor Mitigation via Invertible Pruning Masks
- arxiv url: http://arxiv.org/abs/2509.15497v1
- Date: Fri, 19 Sep 2025 00:32:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.946366
- Title: Backdoor Mitigation via Invertible Pruning Masks
- Title(参考訳): 非可逆プルーニングマスクによるバックドア緩和
- Authors: Kealan Dunnett, Reza Arablouei, Dimity Miller, Volkan Dedeoglu, Raja Jurdak,
- Abstract要約: 本稿では,メインタスクとバックドアタスクの両方に必須なパラメータを識別する,学習したEmphselection機構を備えた新しいプルーニング手法を提案する。
これを二段階最適化問題として定式化し、選択変数、スパース可逆マスク、サンプル固有のバックドア摂動を共同で学習する。
提案手法は,既存のプルーニング方式のバックドア緩和手法より優れ,限られたデータ条件下での強い性能を維持し,最先端の微調整手法と比較して競争力のある結果が得られる。
- 参考スコア(独自算出の注目度): 10.393154496941527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model pruning has gained traction as a promising defense strategy against backdoor attacks in deep learning. However, existing pruning-based approaches often fall short in accurately identifying and removing the specific parameters responsible for inducing backdoor behaviors. Despite the dominance of fine-tuning-based defenses in recent literature, largely due to their superior performance, pruning remains a compelling alternative, offering greater interpretability and improved robustness in low-data regimes. In this paper, we propose a novel pruning approach featuring a learned \emph{selection} mechanism to identify parameters critical to both main and backdoor tasks, along with an \emph{invertible} pruning mask designed to simultaneously achieve two complementary goals: eliminating the backdoor task while preserving it through the inverse mask. We formulate this as a bi-level optimization problem that jointly learns selection variables, a sparse invertible mask, and sample-specific backdoor perturbations derived from clean data. The inner problem synthesizes candidate triggers using the inverse mask, while the outer problem refines the mask to suppress backdoor behavior without impairing clean-task accuracy. Extensive experiments demonstrate that our approach outperforms existing pruning-based backdoor mitigation approaches, maintains strong performance under limited data conditions, and achieves competitive results compared to state-of-the-art fine-tuning approaches. Notably, the proposed approach is particularly effective in restoring correct predictions for compromised samples after successful backdoor mitigation.
- Abstract(参考訳): モデルプルーニングは、ディープラーニングにおけるバックドア攻撃に対する有望な防衛戦略として、勢いを増している。
しかし、既存のプルーニングベースのアプローチは、バックドアの振る舞いを誘発する原因となる特定のパラメータを正確に識別し、削除するのに不足することが多い。
近年の文献では微調整による防御が支配されているが、その大部分は優れた性能のためであるが、刈り取りは魅力的な代替手段であり、より解釈性が高く、低データ体制における堅牢性も向上している。
本稿では,学習した「emph{selection」機構を用いて,メインタスクとバックドアタスクの両方に重要なパラメータを識別し,同時に2つの相補的な目標を達成するための「emph{invertible"プルーニングマスク」を提案する。
本研究では、選択変数、スパース可逆マスク、クリーンデータから得られるサンプル固有のバックドア摂動を共同で学習する二段階最適化問題としてこれを定式化する。
内部問題は、逆マスクを用いて候補トリガーを合成し、外部問題は、クリーンタスク精度を損なうことなく、マスクを洗練させ、バックドア動作を抑制する。
大規模な実験により,本手法は既存のプルーニング方式のバックドア緩和手法よりも優れ,限られたデータ条件下での強い性能を維持し,最先端の微調整手法と比較して競争的な結果が得られることが示された。
特に,提案手法は, バックドアの緩和に成功した後, 破損したサンプルの正確な予測を復元するのに有効である。
関連論文リスト
- Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in Pre-trained Vision-Language Models [42.81731204702258]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトによって間接的に汚染された視覚言語モデル(VLM)を浄化する効率的な方法である。
CBPTは、7つの主要なバックドア攻撃に対して平均的クリーン精度(CA)58.86%、アタック成功率(ASR)0.39%のモデルユーティリティを維持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - REFINE: Inversion-Free Backdoor Defense via Model Reprogramming [60.554146386198376]
ディープニューラルネットワーク(DNN)に対するバックドア攻撃は、重大なセキュリティ脅威として浮上している。
モデル再プログラミングに基づく逆フリーバックドア防御手法であるREFINEを提案する。
論文 参考訳(メタデータ) (2025-02-22T07:29:12Z) - Defending Multimodal Backdoored Models by Repulsive Visual Prompt Tuning [19.638259197558625]
マルチモーダルコントラスト学習モデル(例えばCLIP)は、大規模な画像テキストデータセットから高品質な表現を学習することができる。
彼らはバックドア攻撃に対する重大な脆弱性を示し、深刻な安全性を懸念している。
本稿では,視覚的プロンプトチューニングと特殊に設計された機能的損失を利用した新しい防御手法であるRepulsive Visual Prompt Tuning (RVPT)を提案する。
論文 参考訳(メタデータ) (2024-12-29T08:09:20Z) - An Effective and Resilient Backdoor Attack Framework against Deep Neural Networks and Vision Transformers [22.77836113915616]
本稿では,最適なトリガ形状と位置を探索する,注目に基づく新しいマスク生成手法を提案する。
また、損失関数にQuality-of-Experienceという用語を導入し、トリガの透明性値を慎重に調整する。
提案したバックドア攻撃フレームワークは,最先端のバックドア防御に対する堅牢性を示す。
論文 参考訳(メタデータ) (2024-12-09T02:03:27Z) - ProP: Efficient Backdoor Detection via Propagation Perturbation for Overparametrized Models [2.808880709778591]
バックドア攻撃は、機械学習モデルのセキュリティに重大な課題をもたらす。
本稿では,新規でスケーラブルなバックドア検出手法であるProPを提案する。
ProPは最小限の仮定で動作し、トリガーや悪意のあるサンプルに関する事前の知識を必要としない。
論文 参考訳(メタデータ) (2024-11-11T14:43:44Z) - STBA: Towards Evaluating the Robustness of DNNs for Query-Limited Black-box Scenario [50.37501379058119]
本研究では,クエリ制限シナリオにおいて,悪意のある逆の例を作成するために,空間変換ブラックボックス攻撃(STBA)を提案する。
そこで本研究では,STBAが対向例の認識不能性を効果的に改善し,クエリ制限条件下での攻撃成功率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-03-30T13:28:53Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。