論文の概要: CBD: A Certified Backdoor Detector Based on Local Dominant Probability
- arxiv url: http://arxiv.org/abs/2310.17498v2
- Date: Thu, 4 Jan 2024 03:11:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 17:07:12.464122
- Title: CBD: A Certified Backdoor Detector Based on Local Dominant Probability
- Title(参考訳): CBD:ローカルドミナント確率に基づく認証バックドア検出器
- Authors: Zhen Xiang and Zidi Xiong and Bo Li
- Abstract要約: 本稿では,新しい整合予測手法に基づく最初の認証バックドア検出器(CBD)を提案する。
CBDは、(1)検出推測、(2)攻撃が検出可能であることを保証する条件、(3)偽陽性率の確率的上限を提供する。
CBDは最先端の検出器と同等またはそれ以上の精度で検出を行い、さらに検出認証を提供する。
- 参考スコア(独自算出の注目度): 16.8197731929139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attack is a common threat to deep neural networks. During testing,
samples embedded with a backdoor trigger will be misclassified as an
adversarial target by a backdoored model, while samples without the backdoor
trigger will be correctly classified. In this paper, we present the first
certified backdoor detector (CBD), which is based on a novel, adjustable
conformal prediction scheme based on our proposed statistic local dominant
probability. For any classifier under inspection, CBD provides 1) a detection
inference, 2) the condition under which the attacks are guaranteed to be
detectable for the same classification domain, and 3) a probabilistic upper
bound for the false positive rate. Our theoretical results show that attacks
with triggers that are more resilient to test-time noise and have smaller
perturbation magnitudes are more likely to be detected with guarantees.
Moreover, we conduct extensive experiments on four benchmark datasets
considering various backdoor types, such as BadNet, CB, and Blend. CBD achieves
comparable or even higher detection accuracy than state-of-the-art detectors,
and it in addition provides detection certification. Notably, for backdoor
attacks with random perturbation triggers bounded by $\ell_2\leq0.75$ which
achieves more than 90\% attack success rate, CBD achieves 100\% (98\%), 100\%
(84\%), 98\% (98\%), and 72\% (40\%) empirical (certified) detection true
positive rates on the four benchmark datasets GTSRB, SVHN, CIFAR-10, and
TinyImageNet, respectively, with low false positive rates.
- Abstract(参考訳): バックドア攻撃はディープニューラルネットワークに対する一般的な脅威である。
テスト中、バックドアトリガーに埋め込まれたサンプルは、バックドアモデルによって敵の標的として誤分類され、バックドアトリガーのないサンプルは正しく分類される。
本稿では,提案した統計的局所支配確率に基づく,新しい調整可能な共形予測スキームに基づく,最初の認証バックドア検出器(CBD)を提案する。
検査中の分類器に対して cbdは
1) 検出推測
2 同一分類領域において、攻撃が検出可能であることを保証された条件、及び
3) 偽陽性率の確率的上限。
実験結果から, 試験時間騒音に対する耐性が高く, 摂動強度が小さいトリガによる攻撃は, 確実に検出される可能性が示唆された。
さらに,BadNet,CB,Blendなどのバックドアタイプを考慮した4つのベンチマークデータセットについて広範な実験を行った。
CBDは最先端の検出器と同等またはそれ以上の精度で検出を行い、さらに検出認証を提供する。
特に、90\%以上の攻撃成功率を達成する$\ell_2\leq0.75$で制限されたランダムな摂動トリガーを持つバックドア攻撃の場合、cbdは、それぞれ100\% (98\%), 100\% (84\%), 98\% (98\%), 72\% (40\%) の経験的 (認証済み) で、gtsrb, svhn, cifar-10, tinyimagenet の4つのベンチマークデータセットの真正正率をそれぞれ低い偽陽性率で達成する。
関連論文リスト
- AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - BoBa: Boosting Backdoor Detection through Data Distribution Inference in Federated Learning [26.714674251814586]
フェデレーテッド・ラーニングは、その分散した性質のため、毒殺の被害を受けやすい。
本稿では,この問題を解決するために,分布認識型異常検出機構であるBoBaを提案する。
論文 参考訳(メタデータ) (2024-07-12T19:38:42Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - CBPF: Filtering Poisoned Data Based on Composite Backdoor Attack [11.815603563125654]
本稿では, 汚染試料のろ過を調べた結果, バックドア攻撃のリスク軽減策について検討した。
CBPF (Composite Backdoor Poison Filtering) と呼ばれる新しい3段階毒素データフィルタリング手法が有効な解法として提案されている。
論文 参考訳(メタデータ) (2024-06-23T14:37:24Z) - PSBD: Prediction Shift Uncertainty Unlocks Backdoor Detection [57.571451139201855]
予測シフトバックドア検出(英: Prediction Shift Backdoor Detection、PSBD)は、ディープニューラルネットワークにおけるバックドアサンプルを識別する新しい手法である。
PSBDは興味深い予測シフト(PS)現象によって動機付けられており、クリーンなデータに対する有害なモデルの予測は、しばしば真のラベルから別のラベルへとシフトする。
PSBDは、モデル推論中にドロップアウト層をオン/オフする際の確率値のばらつきである予測シフト不確実性(PSU)を計算することで、バックドアトレーニングサンプルを特定する。
論文 参考訳(メタデータ) (2024-06-09T15:31:00Z) - IBD-PSC: Input-level Backdoor Detection via Parameter-oriented Scaling Consistency [20.61046457594186]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
本稿では、悪意のあるテスト画像のフィルタリングを行うための、シンプルで効果的な入力レベルのバックドア検出(IBD-PSCと呼ばれる)を提案する。
論文 参考訳(メタデータ) (2024-05-16T03:19:52Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Detecting Backdoors During the Inference Stage Based on Corruption
Robustness Consistency [33.42013309686333]
本稿では,被害者モデルのハードラベル出力のみを必要とする試験時間トリガーサンプル検出法を提案する。
私たちの旅は、バックドアに感染したモデルが、クリーンな画像に対して異なる画像の破損に対して同様のパフォーマンスを持つのに、トリガーサンプルに対して不一致に実行するという興味深い観察から始まります。
大規模な実験では、最先端のディフェンスと比較すると、TeCoは異なるバックドア攻撃、データセット、モデルアーキテクチャにおいて、それらよりも優れています。
論文 参考訳(メタデータ) (2023-03-27T07:10:37Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Non-Intrusive Detection of Adversarial Deep Learning Attacks via
Observer Networks [5.4572790062292125]
近年の研究では、深層学習モデルは逆入力に弱いことが示されている。
本稿では,主分類網を複数のバイナリ検出器で拡張することにより,逆入力を検出する新しい手法を提案する。
我々は、MNISTデータセットで99.5%、CIFAR-10データセットで97.5%の精度で検出する。
論文 参考訳(メタデータ) (2020-02-22T21:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。