論文の概要: Quantization Blindspots: How Model Compression Breaks Backdoor Defenses
- arxiv url: http://arxiv.org/abs/2512.06243v1
- Date: Sat, 06 Dec 2025 02:04:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.257537
- Title: Quantization Blindspots: How Model Compression Breaks Backdoor Defenses
- Title(参考訳): 量子化の盲点:モデル圧縮がバックドアディフェンスを破る方法
- Authors: Rohan Pandey, Eric Ye,
- Abstract要約: 標準量子化パイプライン下でのバックドアディフェンスの動作について検討する。
INT8量子化は,攻撃成功率を99%以上に抑えながら,すべての評価された防御の検知率を0%に低下させることがわかった。
我々の結果は、防衛が一般的に評価される方法と、モデルが実際にどのようにデプロイされるかのミスマッチを明らかにします。
- 参考スコア(独自算出の注目度): 1.8646269335840449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks embed input-dependent malicious behavior into neural networks while preserving high clean accuracy, making them a persistent threat for deployed ML systems. At the same time, real-world deployments almost never serve full-precision models: post-training quantization to INT8 or lower precision is now standard practice for reducing memory and latency. This work asks a simple question: how do existing backdoor defenses behave under standard quantization pipelines? We conduct a systematic empirical study of five representative defenses across three precision settings (FP32, INT8 dynamic, INT4 simulated) and two standard vision benchmarks using a canonical BadNet attack. We observe that INT8 quantization reduces the detection rate of all evaluated defenses to 0% while leaving attack success rates above 99%. For INT4, we find a pronounced dataset dependence: Neural Cleanse remains effective on GTSRB but fails on CIFAR-10, even though backdoors continue to survive quantization with attack success rates above 90%. Our results expose a mismatch between how defenses are commonly evaluated (on FP32 models) and how models are actually deployed (in quantized form), and they highlight quantization robustness as a necessary axis in future evaluations and designs of backdoor defenses.
- Abstract(参考訳): バックドア攻撃は、入力依存の悪意のある振る舞いをニューラルネットワークに埋め込むと同時に、高いクリーンな精度を維持し、デプロイされたMLシステムに対する永続的な脅威となる。
INT8やそれ以下の精度でのトレーニング後の量子化は、メモリとレイテンシを低減するための標準的なプラクティスになっています。
既存のバックドアディフェンスは、標準的な量子化パイプラインの下でどのように振る舞うのか?
我々は,3つの精度設定 (FP32, INT8 dynamic, INT4simulated) と標準視力ベンチマーク(BadNet攻撃) を用いて, 5つの代表防御を系統的に検討した。
INT8量子化は,攻撃成功率を99%以上に抑えながら,全ての評価された防御の検知率を0%に低下させる。
ニューラルクリーンスはGTSRBでは有効だが、CIFAR-10では失敗するが、バックドアは90%以上の攻撃成功率で量子化を継続する。
以上の結果から,防衛の一般的な評価方法(FP32モデル)と,モデルが実際にどのように展開されるか(量子化形式で)のミスマッチが明らかとなり,バックドアディフェンスの今後の評価や設計において必要となる軸として,量子化ロバスト性を強調した。
関連論文リスト
- Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models [71.44858461725893]
信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。
既存の検出方法は通常、トレーニングデータセット、バックドアトリガー、ターゲットの事前知識に依存する。
このような事前知識を伴わずに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を紹介する。
論文 参考訳(メタデータ) (2025-11-29T06:20:00Z) - Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z) - MARS: A Malignity-Aware Backdoor Defense in Federated Learning [51.77354308287098]
最近提案されたSOTA攻撃(3DFed)は、ディフェンダーがバックドアモデルを受け入れたかどうかを判断するためにインジケータ機構を使用する。
本稿では,各ニューロンの有害な範囲を示すためにバックドアエネルギーを利用するMARS(Maignity-Aware backdooR defenSe)を提案する。
実験により、MARSはSOTAのバックドア攻撃に対して防御でき、既存の防御を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-21T14:50:02Z) - Train to Defend: First Defense Against Cryptanalytic Neural Network Parameter Extraction Attacks [3.5266668043629714]
本稿では,暗号解析パラメータ抽出攻撃に対する最初の防御機構を提案する。
私たちの重要な洞察は、これらの攻撃が成功するために必要なニューロンのユニークさを取り除くことです。
我々は、新しい抽出対応の訓練手法によりこれを達成した。
論文 参考訳(メタデータ) (2025-09-20T06:05:23Z) - On Jailbreaking Quantized Language Models Through Fault Injection Attacks [3.5902882430875174]
言語モデル(LM)の安全性の整合性は重要な問題であるが、それらの整合性は直接パラメータ操作による攻撃によって解決される。
本稿では, 異なる量子化方式におけるジェイルブレイクアライメント LM に対する攻撃の有効性について検討する。
論文 参考訳(メタデータ) (2025-07-04T00:48:48Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain [8.64369418938889]
周波数領域に基づく一般化されたバックドア攻撃手法を提案する。
トレーニングプロセスのミスラベルやアクセスをすることなく、バックドアのインプラントを実装できる。
我々は,3つのデータセットに対して,ラベルなし,クリーンラベルのケースにおけるアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-09T07:05:53Z) - Don't Knock! Rowhammer at the Backdoor of DNN Models [19.13129153353046]
Rowhammerをフォールトインジェクション法として用いたモデル上で,実際のハードウェア上で実現したエンドツーエンドのバックドアインジェクション攻撃を提案する。
ハードウェアにおけるリアルなバックドアインジェクション攻撃を実現するために,制約付き最適化に基づく新しいネットワークトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-14T19:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。