論文の概要: Prediction Inconsistency Helps Achieve Generalizable Detection of Adversarial Examples
- arxiv url: http://arxiv.org/abs/2506.03765v1
- Date: Wed, 04 Jun 2025 09:29:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.267164
- Title: Prediction Inconsistency Helps Achieve Generalizable Detection of Adversarial Examples
- Title(参考訳): 予測不整合は、汎用的な逆例の検出を支援する
- Authors: Sicong Han, Chenhao Lin, Zhengyu Zhao, Xiyuan Wang, Xinlei He, Qian Li, Cong Wang, Qian Wang, Chao Shen,
- Abstract要約: Prediction Inconsistency Detector (PID) は軽量で一般化可能な検出フレームワークである。
PIDは自然と敵対的に訓練された原始モデルの両方と互換性がある。
3つのホワイトボックス、3つのブラックボックス、1つの混合敵攻撃で4つの検出方法を上回っている。
- 参考スコア(独自算出の注目度): 31.535244194865236
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Adversarial detection protects models from adversarial attacks by refusing suspicious test samples. However, current detection methods often suffer from weak generalization: their effectiveness tends to degrade significantly when applied to adversarially trained models rather than naturally trained ones, and they generally struggle to achieve consistent effectiveness across both white-box and black-box attack settings. In this work, we observe that an auxiliary model, differing from the primary model in training strategy or model architecture, tends to assign low confidence to the primary model's predictions on adversarial examples (AEs), while preserving high confidence on normal examples (NEs). Based on this discovery, we propose Prediction Inconsistency Detector (PID), a lightweight and generalizable detection framework to distinguish AEs from NEs by capturing the prediction inconsistency between the primal and auxiliary models. PID is compatible with both naturally and adversarially trained primal models and outperforms four detection methods across 3 white-box, 3 black-box, and 1 mixed adversarial attacks. Specifically, PID achieves average AUC scores of 99.29\% and 99.30\% on CIFAR-10 when the primal model is naturally and adversarially trained, respectively, and 98.31% and 96.81% on ImageNet under the same conditions, outperforming existing SOTAs by 4.70%$\sim$25.46%.
- Abstract(参考訳): 敵検出は、不審なテストサンプルを拒絶することで、敵攻撃からモデルを保護する。
しかしながら、現在の検出方法は、しばしば弱い一般化に悩まされる: それらの効果は、自然に訓練されたモデルではなく、敵対的に訓練されたモデルに適用された場合、大幅に低下する傾向にあり、一般に、ホワイトボックスとブラックボックスの攻撃設定の両方で一貫した効果を達成するのに苦労する。
本研究では, 学習戦略やモデルアーキテクチャの一次モデルと異なる補助モデルでは, 正規例(NE)に高い信頼を保ちながら, 敵例(AE)に主モデルの予測に低信頼を割り当てる傾向があることを観察する。
この発見に基づいて、予備モデルと補助モデル間の予測不整合を捕捉し、AEとNEを区別する軽量で一般化可能な検出フレームワークである予測不整合検出器(PID)を提案する。
PIDは、自然と敵対的に訓練された原始モデルの両方と互換性があり、3つのホワイトボックス、3つのブラックボックス、1つの混合敵攻撃で4つの検出方法を上回っている。
具体的には、プライマリモデルがそれぞれ自然に訓練された場合のCIFAR-10の平均AUCスコアは99.29\%と99.30\%であり、ImageNetでは98.31%と96.81%であり、既存のSOTAの4.70%$\sim$25.46%を上回っている。
関連論文リスト
- PASA: Attack Agnostic Unsupervised Adversarial Detection using Prediction & Attribution Sensitivity Analysis [2.5347892611213614]
分類のためのディープニューラルネットワークは、サンプル入力に対する小さな摂動が誤った予測につながる敵攻撃に対して脆弱である。
本研究では, モデル予測と特徴属性のこの特性の実用的手法を開発し, 対向サンプルを検出する。
本手法は,敵が防御機構を認識した場合でも,競争性能を示す。
論文 参考訳(メタデータ) (2024-04-12T21:22:21Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - Adversarial defense based on distribution transfer [22.14684430074648]
敵対的な例の存在は、ディープラーニングモデルとその応用に重大な脅威をもたらす。
既存の防御方法は、敵の例に対してある種の弾力性を提供するが、しばしば精度の低下と一般化性能に悩まされる。
本稿では,拡散モデルの分散伝達能力を利用した分散シフトに基づく防御手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T08:01:18Z) - Improving White-box Robustness of Pre-processing Defenses via Joint Adversarial Training [106.34722726264522]
対向騒音の干渉を軽減するため,様々な対向防御技術が提案されている。
プレプロセス法は、ロバストネス劣化効果に悩まされることがある。
この負の効果の潜在的な原因は、敵の訓練例が静的であり、前処理モデルとは独立していることである。
本稿では,JATP(Joint Adversarial Training Based Pre-processing)防衛法を提案する。
論文 参考訳(メタデータ) (2021-06-10T01:45:32Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。