論文の概要: Class-Conditional Neural Polarizer: A Lightweight and Effective Backdoor Defense by Purifying Poisoned Features
- arxiv url: http://arxiv.org/abs/2502.18520v1
- Date: Sun, 23 Feb 2025 11:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:58:14.886012
- Title: Class-Conditional Neural Polarizer: A Lightweight and Effective Backdoor Defense by Purifying Poisoned Features
- Title(参考訳): クラスコンディション型ニューラルポラライザ:汚染された特徴の浄化による軽量で効果的なバックドアディフェンス
- Authors: Mingli Zhu, Shaokui Wei, Hongyuan Zha, Baoyuan Wu,
- Abstract要約: 最近の研究は、バックドア攻撃に対するディープニューラルネットワークの脆弱性を強調している。
ニューラルポーラライザーベースディフェンス(CNPD)という,軽量なバックドアディフェンス手法を提案する。
CNPDは、バックドアモデルの予測ラベルと、浄化すべき機能を統合する。
- 参考スコア(独自算出の注目度): 58.44299620519961
- License:
- Abstract: Recent studies have highlighted the vulnerability of deep neural networks to backdoor attacks, where models are manipulated to rely on embedded triggers within poisoned samples, despite the presence of both benign and trigger information. While several defense methods have been proposed, they often struggle to balance backdoor mitigation with maintaining benign performance.In this work, inspired by the concept of optical polarizer-which allows light waves of specific polarizations to pass while filtering others-we propose a lightweight backdoor defense approach, NPD. This method integrates a neural polarizer (NP) as an intermediate layer within the compromised model, implemented as a lightweight linear transformation optimized via bi-level optimization. The learnable NP filters trigger information from poisoned samples while preserving benign content. Despite its effectiveness, we identify through empirical studies that NPD's performance degrades when the target labels (required for purification) are inaccurately estimated. To address this limitation while harnessing the potential of targeted adversarial mitigation, we propose class-conditional neural polarizer-based defense (CNPD). The key innovation is a fusion module that integrates the backdoored model's predicted label with the features to be purified. This architecture inherently mimics targeted adversarial defense mechanisms without requiring label estimation used in NPD. We propose three implementations of CNPD: the first is r-CNPD, which trains a replicated NP layer for each class and, during inference, selects the appropriate NP layer for defense based on the predicted class from the backdoored model. To efficiently handle a large number of classes, two variants are designed: e-CNPD, which embeds class information as additional features, and a-CNPD, which directs network attention using class information.
- Abstract(参考訳): 近年の研究は、深層ニューラルネットワークのバックドア攻撃に対する脆弱性を強調している。そこではモデルが、良性情報とトリガー情報の両方があるにもかかわらず、有毒サンプルに埋め込まれたトリガーに依存するように操作される。
この研究は、特定の偏光の光波を他者をフィルターしながら通過させる光学偏光器の概念に着想を得ており、我々は軽量なバックドア防御アプローチであるNPDを提案している。
この手法は、二段階最適化により最適化された軽量線形変換として実装された、妥協モデル内の中間層として神経偏光子(NP)を統合する。
学習可能なNPフィルターは、良性コンテンツを保存しながら、有毒なサンプルからの情報をトリガーする。
有効性にもかかわらず、NPDの性能が低下するのは、ターゲットラベル(精製要求)が不正確であると推定された場合である。
目的とする対向緩和の可能性を生かしながら、この制限に対処するため、クラス条件のニューラルポーラライザーベースディフェンス(CNPD)を提案する。
重要なイノベーションは、バックドアモデルの予測ラベルと、浄化すべき機能を統合する、融合モジュールである。
このアーキテクチャは本質的に、NPDで使われるラベル推定を必要とせずに、標的となる対向防御機構を模倣する。
まず、各クラスに対して複製NP層をトレーニングし、推論中に、バックドアモデルから予測されたクラスに基づいて防御のための適切なNP層を選択する。
多数のクラスを効率的に扱うために、クラス情報を付加的な機能として組み込むe-CNPDと、クラス情報を使ってネットワークの注意を向けるa-CNPDという2つのバリエーションが設計されている。
関連論文リスト
- Augmented Neural Fine-Tuning for Efficient Backdoor Purification [16.74156528484354]
最近の研究では、様々なバックドア攻撃に対するディープニューラルネットワーク(DNN)の脆弱性が明らかにされている。
神経活動の最適再編成を目的としたニューラルマスクファインチューニング(NFT)を提案する。
NFTはトリガー合成プロセスを緩和し、逆探索モジュールの要求をなくす。
論文 参考訳(メタデータ) (2024-07-14T02:36:54Z) - PSBD: Prediction Shift Uncertainty Unlocks Backdoor Detection [57.571451139201855]
予測シフトバックドア検出(英: Prediction Shift Backdoor Detection、PSBD)は、ディープニューラルネットワークにおけるバックドアサンプルを識別する新しい手法である。
PSBDは興味深い予測シフト(PS)現象によって動機付けられており、クリーンなデータに対する有害なモデルの予測は、しばしば真のラベルから別のラベルへとシフトする。
PSBDは、モデル推論中にドロップアウト層をオン/オフする際の確率値のばらつきである予測シフト不確実性(PSU)を計算することで、バックドアトレーニングサンプルを特定する。
論文 参考訳(メタデータ) (2024-06-09T15:31:00Z) - IBD-PSC: Input-level Backdoor Detection via Parameter-oriented Scaling Consistency [20.61046457594186]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
本稿では、悪意のあるテスト画像のフィルタリングを行うための、シンプルで効果的な入力レベルのバックドア検出(IBD-PSCと呼ばれる)を提案する。
論文 参考訳(メタデータ) (2024-05-16T03:19:52Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Neural Polarizer: A Lightweight and Effective Backdoor Defense via
Purifying Poisoned Features [62.82817831278743]
近年の研究では、バックドア攻撃に対するディープニューラルネットワークの感受性が示されている。
本研究では,学習可能なニューラルポーラライザを中間層としてバックドアモデルに挿入することで,新たなバックドア防御手法を提案する。
論文 参考訳(メタデータ) (2023-06-29T05:39:58Z) - A Mask-Based Adversarial Defense Scheme [3.759725391906588]
敵対的攻撃はディープニューラルネットワーク(DNN)の機能と精度を妨げる
敵攻撃による負の効果を軽減するため,DNNのためのMask-based Adversarial Defense scheme (MAD)を提案する。
論文 参考訳(メタデータ) (2022-04-21T12:55:27Z) - Targeted Attack against Deep Neural Networks via Flipping Limited Weight
Bits [55.740716446995805]
我々は,悪質な目的で展開段階におけるモデルパラメータを修飾する新しい攻撃パラダイムについて検討する。
私たちのゴールは、特定のサンプルをサンプル修正なしでターゲットクラスに誤分類することです。
整数プログラミングにおける最新の手法を利用することで、このBIP問題を連続最適化問題として等価に再構成する。
論文 参考訳(メタデータ) (2021-02-21T03:13:27Z) - Mitigating the Impact of Adversarial Attacks in Very Deep Networks [10.555822166916705]
Deep Neural Network (DNN)モデルにはセキュリティに関する脆弱性がある。
データ中毒による摂動攻撃は、モデルに偽データを注入する複雑な敵対攻撃である。
そこで本研究では,攻撃に依存しない防御手法を提案する。
論文 参考訳(メタデータ) (2020-12-08T21:25:44Z) - Rectified Linear Postsynaptic Potential Function for Backpropagation in
Deep Spiking Neural Networks [55.0627904986664]
スパイキングニューラルネットワーク(SNN)は、時間的スパイクパターンを用いて情報を表現し、伝達する。
本稿では,情報符号化,シナプス可塑性,意思決定におけるスパイクタイミングダイナミクスの寄与について検討し,将来のDeepSNNやニューロモルフィックハードウェアシステムの設計への新たな視点を提供する。
論文 参考訳(メタデータ) (2020-03-26T11:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。