論文の概要: BDFirewall: Towards Effective and Expeditiously Black-Box Backdoor Defense in MLaaS
- arxiv url: http://arxiv.org/abs/2508.03307v1
- Date: Tue, 05 Aug 2025 10:28:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.917502
- Title: BDFirewall: Towards Effective and Expeditiously Black-Box Backdoor Defense in MLaaS
- Title(参考訳): BDFirewall:MLaaSの効果的かつ迅速なブラックボックスバックドアディフェンスを目指す
- Authors: Ye Li, Chengcheng Zhu, Yanchao Zhao, Jiale Zhang,
- Abstract要約: 本稿では,ブラックボックスシナリオにおけるバックドア攻撃対策の課題について述べる。
我々はまず、新しい視点、すなわちパッチされた領域への影響からバックドアトリガを分類し、それらを分割する: ハイビジョントリガー(HVT)、セミヴィジュアビリティトリガー(SVT)、ロービジョントリガー(LVT)。
この分類に基づいて、モデルアクセスを必要とせずに、これらのトリガを最も目立ったものから最も微妙なものへと取り除くプログレッシブディフェンスフレームワークであるBDFirewallを提案する。
- 参考スコア(独自算出の注目度): 9.441965281943132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we endeavor to address the challenges of backdoor attacks countermeasures in black-box scenarios, thereby fortifying the security of inference under MLaaS. We first categorize backdoor triggers from a new perspective, i.e., their impact on the patched area, and divide them into: high-visibility triggers (HVT), semi-visibility triggers (SVT), and low-visibility triggers (LVT). Based on this classification, we propose a progressive defense framework, BDFirewall, that removes these triggers from the most conspicuous to the most subtle, without requiring model access. First, for HVTs, which create the most significant local semantic distortions, we identify and eliminate them by detecting these salient differences. We then restore the patched area to mitigate the adverse impact of such removal process. The localized purification designed for HVTs is, however, ineffective against SVTs, which globally perturb benign features. We therefore model an SVT-poisoned input as a mixture of a trigger and benign features, where we unconventionally treat the benign features as "noise". This formulation allows us to reconstruct SVTs by applying a denoising process that removes these benign "noise" features. The SVT-free input is then obtained by subtracting the reconstructed trigger. Finally, to neutralize the nearly imperceptible but fragile LVTs, we introduce lightweight noise to disrupt the trigger pattern and then apply DDPM to restore any collateral impact on clean features. Comprehensive experiments demonstrate that our method outperforms state-of-the-art defenses. Compared with baselines, BDFirewall reduces the Attack Success Rate (ASR) by an average of 33.25%, improving poisoned sample accuracy (PA) by 29.64%, and achieving up to a 111x speedup in inference time. Code will be made publicly available upon acceptance.
- Abstract(参考訳): 本稿では,ブラックボックスシナリオにおけるバックドア攻撃対策の課題に対処し,MLaaSの下での推論のセキュリティを強化する。
我々はまず、新しい視点、すなわちパッチされた領域への影響からバックドアトリガを分類し、ハイビジョントリガ(HVT)、半可視トリガ(SVT)、低可視トリガ(LVT)に分割する。
この分類に基づいて、モデルアクセスを必要とせずに、これらのトリガを最も目立ったものから最も微妙なものへと取り除くプログレッシブディフェンスフレームワークであるBDFirewallを提案する。
まず、最も重要な局所的意味歪みを生成するHVTに対して、これらの顕著な差異を検出してそれらを特定し、排除する。
そして,このような除去プロセスの悪影響を軽減するため,パッチ領域を修復する。
しかし, HVTsの局所浄化はSVTsに対して有効ではない。
そこで本研究では,SVT-poisoned 入力をトリガと良性特徴の混合としてモデル化し,良性特徴を「ノイズ」として予防的に扱う。
この定式化により、これらの良質な「ノイズ」特徴を除去するデノナイジングプロセスを適用することで、SVTを再構築することができる。
そして、再構成されたトリガを減算してSVTフリーな入力を得る。
最後に, ほとんど知覚できないが壊れやすいLVTを中和するために, トリガーパターンを乱す軽量ノイズを導入し, DDPMを適用してクリーンな特徴に対する副作用を復元する。
総合的な実験により,本手法は最先端の防御性能より優れていることが示された。
ベースラインと比較して、BDFirewallは平均33.25%のアタック成功率(ASR)を減少させ、有毒サンプルの精度(PA)を29.64%向上させ、推論時間で111倍のスピードアップを達成する。
コードは受理時に公開される。
関連論文リスト
- Active Adversarial Noise Suppression for Image Forgery Localization [56.98050814363447]
本稿では、敵騒音の攻撃効果を抑制するために、防御的摂動を発生させる敵騒音抑制モジュール(ANSM)を提案する。
我々の知る限りでは、画像フォージェリローカライゼーションタスクにおける敵対的防御の報告としてはこれが初めてである。
論文 参考訳(メタデータ) (2025-06-15T14:53:27Z) - Stealthy Patch-Wise Backdoor Attack in 3D Point Cloud via Curvature Awareness [52.07366900097567]
バックドア攻撃はディープニューラルネットワーク(DNN)に深刻な脅威をもたらす
既存の3Dポイントのクラウドバックドア攻撃は、主にサンプルワイドなグローバルな修正に依存している。
本稿では,最初のパッチワイズトリガを3Dポイントクラウドに適用したSPBA(Stalthy Patch-Wise Backdoor Attack)を提案する。
論文 参考訳(メタデータ) (2025-03-12T12:30:59Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in Pre-trained Vision-Language Models [42.81731204702258]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトによって間接的に汚染された視覚言語モデル(VLM)を浄化する効率的な方法である。
CBPTは、7つの主要なバックドア攻撃に対して平均的クリーン精度(CA)58.86%、アタック成功率(ASR)0.39%のモデルユーティリティを維持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Towards Understanding the Robustness of Diffusion-Based Purification: A Stochastic Perspective [65.10019978876863]
拡散性浄化(DBP)は、敵の攻撃に対する効果的な防御機構として出現している。
本稿では,DBPプロセスの本質性がロバスト性を駆動する主要な要因であることを示す。
論文 参考訳(メタデータ) (2024-04-22T16:10:38Z) - Model Supply Chain Poisoning: Backdooring Pre-trained Models via Embedding Indistinguishability [61.549465258257115]
そこで我々は,PTMに埋め込まれたバックドアをモデルサプライチェーンに効率的に移動させる,新しい,より厳しいバックドア攻撃であるTransTrojを提案する。
実験の結果,本手法はSOTAタスク非依存のバックドア攻撃より有意に優れていた。
論文 参考訳(メタデータ) (2024-01-29T04:35:48Z) - DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial
Purification [63.65630243675792]
拡散に基づく浄化防御は拡散モデルを利用して、敵の例の人工摂動を除去する。
近年の研究では、先進的な攻撃でさえ、そのような防御を効果的に破壊できないことが示されている。
拡散型浄化防衛を効果的かつ効率的に行うための統合フレームワークDiffAttackを提案する。
論文 参考訳(メタデータ) (2023-10-27T15:17:50Z) - Towards Stable Backdoor Purification through Feature Shift Tuning [22.529990213795216]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
本稿では,最も一般的かつ容易に配置可能なバックドアディフェンスであるファインチューニングから始める。
チューニングに基づくバックドア浄化手法であるFeature Shift Tuning (FST)を紹介する。
論文 参考訳(メタデータ) (2023-10-03T08:25:32Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Denoising Diffusion Probabilistic Models as a Defense against
Adversarial Attacks [0.0]
本研究は,敵攻撃に対する浄化手法として,拡散確率モデル(DDPM)の性能を評価する。
リンパ節郭清におけるPatchCamelyonデータセットのアプローチについて検討し,その精度を88%まで向上させた。
論文 参考訳(メタデータ) (2023-01-17T13:27:53Z) - Mitigating Black-Box Adversarial Attacks via Output Noise Perturbation [4.7591428725916245]
ブラックボックスの敵攻撃では、敵はディープニューラルネットワーク(DNN)に問い合わせる
本稿では,この攻撃を緩和するために,DNN出力に白色雑音を加える手法について検討する。
論文 参考訳(メタデータ) (2021-09-30T14:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。