論文の概要: RPP: A Certified Poisoned-Sample Detection Framework for Backdoor Attacks under Dataset Imbalance
- arxiv url: http://arxiv.org/abs/2602.00183v1
- Date: Fri, 30 Jan 2026 05:17:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.035871
- Title: RPP: A Certified Poisoned-Sample Detection Framework for Backdoor Attacks under Dataset Imbalance
- Title(参考訳): RPP:データセット不均衡下でのバックドアアタックのための認証済みサンプル検出フレームワーク
- Authors: Miao Lin, Feng Yu, Rui Ning, Lusi Li, Jiawei Chen, Qian Lou, Mengxin Zheng, Chunsheng Xin, Hongyi Wu,
- Abstract要約: ディープニューラルネットワークは、バックドア攻撃の影響を受けやすい。
これまでの防御手法のほとんどは、現実のシナリオにおける広汎なクラス不均衡を見越して、バランスの取れたデータに依存している。
本稿では,データセットの不均衡がバックドアの脆弱性をいかに増幅するかを詳細に調査する。
- 参考スコア(独自算出の注目度): 28.685060872545247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks are highly susceptible to backdoor attacks, yet most defense methods to date rely on balanced data, overlooking the pervasive class imbalance in real-world scenarios that can amplify backdoor threats. This paper presents the first in-depth investigation of how the dataset imbalance amplifies backdoor vulnerability, showing that (i) the imbalance induces a majority-class bias that increases susceptibility and (ii) conventional defenses degrade significantly as the imbalance grows. To address this, we propose Randomized Probability Perturbation (RPP), a certified poisoned-sample detection framework that operates in a black-box setting using only model output probabilities. For any inspected sample, RPP determines whether the input has been backdoor-manipulated, while offering provable within-domain detectability guarantees and a probabilistic upper bound on the false positive rate. Extensive experiments on five benchmarks (MNIST, SVHN, CIFAR-10, TinyImageNet and ImageNet10) covering 10 backdoor attacks and 12 baseline defenses show that RPP achieves significantly higher detection accuracy than state-of-the-art defenses, particularly under dataset imbalance. RPP establishes a theoretical and practical foundation for defending against backdoor attacks in real-world environments with imbalanced data.
- Abstract(参考訳): ディープニューラルネットワークはバックドア攻撃の影響を受けやすいが、これまでのほとんどの防御方法はバランスのとれたデータに依存しており、バックドアの脅威を増幅する現実世界のシナリオにおける広範にわたるクラス不均衡を見越している。
本稿では,データセットの不均衡がバックドアの脆弱性をいかに増幅するかを詳細に調査する。
(i)不均衡は、感受性と感受性を高める多数派バイアスを誘導する
二 従来の防御は、不均衡が増大するにつれて著しく低下する。
そこで本研究では,モデル出力確率のみを用いてブラックボックス設定で動作可能な有毒サンプル検出フレームワークであるRandomized Probability Perturbation (RPP)を提案する。
検査されたサンプルに対して、RCPは入力がバックドア操作されたかどうかを判定し、証明可能なドメイン内検出可能性保証と偽陽性率の確率的上限を提供する。
10のバックドア攻撃と12のベースラインディフェンスをカバーする5つのベンチマーク(MNIST、SVHN、CIFAR-10、TinyImageNet、ImageNet10)の大規模な実験によると、RCPは、特にデータセットの不均衡の下で、最先端のディフェンスよりもはるかに高い検出精度を達成している。
RPPは、非バランスなデータで現実世界の環境におけるバックドア攻撃を防御するための理論的かつ実践的な基盤を確立している。
関連論文リスト
- The Eminence in Shadow: Exploiting Feature Boundary Ambiguity for Robust Backdoor Attacks [51.468144272905135]
深層ニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱なままでも重要なアプリケーションを支える。
バックドア攻撃を標的とした理論的解析を行い,不均質なモデル操作を実現するための疎い決定境界に着目した。
エミネンス(Eminence)は、理論的な保証と固有なステルス特性を持つ、説明可能で堅牢なブラックボックスバックドアフレームワークである。
論文 参考訳(メタデータ) (2025-12-11T08:09:07Z) - MARS: A Malignity-Aware Backdoor Defense in Federated Learning [51.77354308287098]
最近提案されたSOTA攻撃(3DFed)は、ディフェンダーがバックドアモデルを受け入れたかどうかを判断するためにインジケータ機構を使用する。
本稿では,各ニューロンの有害な範囲を示すためにバックドアエネルギーを利用するMARS(Maignity-Aware backdooR defenSe)を提案する。
実験により、MARSはSOTAのバックドア攻撃に対して防御でき、既存の防御を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-21T14:50:02Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Reliable Poisoned Sample Detection against Backdoor Attacks Enhanced by Sharpness Aware Minimization [38.957943962546864]
我々は,バニラ学習アルゴリズムではなく,シャープネス・アウェア最小化(SAM)アルゴリズムを用いて1つのモデルを訓練することを提案する。
いくつかのベンチマークデータセットに対する大規模な実験は、弱いバックドア攻撃と強いバックドア攻撃の両方に対して提案手法の信頼性の高い検出性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:35:08Z) - CBD: A Certified Backdoor Detector Based on Local Dominant Probability [16.8197731929139]
本稿では,新しい整合予測手法に基づく最初の認証バックドア検出器(CBD)を提案する。
CBDは、(1)検出推測、(2)攻撃が検出可能であることを保証する条件、(3)偽陽性率の確率的上限を提供する。
CBDは最先端の検出器と同等またはそれ以上の精度で検出を行い、さらに検出認証を提供する。
論文 参考訳(メタデータ) (2023-10-26T15:53:18Z) - A Spectral Perspective towards Understanding and Improving Adversarial
Robustness [8.912245110734334]
対人訓練(AT)は効果的な防御手法であることが証明されているが、堅牢性向上のメカニズムは十分に理解されていない。
我々は、ATは、形状バイアスのある表現を保持する低周波領域にもっと焦点を合わせ、堅牢性を得るよう深層モデルに誘導することを示す。
本稿では,攻撃された逆入力によって推定されるスペクトル出力が,その自然な入力に可能な限り近いスペクトルアライメント正則化(SAR)を提案する。
論文 参考訳(メタデータ) (2023-06-25T14:47:03Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - Free Lunch for Generating Effective Outlier Supervision [46.37464572099351]
本稿では, ほぼ現実的な外乱監視を実現するための超効率的な手法を提案する。
提案したtextttBayesAug は,従来の方式に比べて偽陽性率を 12.50% 以上削減する。
論文 参考訳(メタデータ) (2023-01-17T01:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。