Fugu-MT 論文翻訳(概要): Prediction Inconsistency Helps Achieve Generalizable Detection of Adversarial Examples

論文の概要: Prediction Inconsistency Helps Achieve Generalizable Detection of Adversarial Examples

arxiv url: http://arxiv.org/abs/2506.03765v1
Date: Wed, 04 Jun 2025 09:29:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:14.267164
Title: Prediction Inconsistency Helps Achieve Generalizable Detection of Adversarial Examples
Title（参考訳）: 予測不整合は、汎用的な逆例の検出を支援する
Authors: Sicong Han, Chenhao Lin, Zhengyu Zhao, Xiyuan Wang, Xinlei He, Qian Li, Cong Wang, Qian Wang, Chao Shen,
Abstract要約: Prediction Inconsistency Detector (PID) は軽量で一般化可能な検出フレームワークである。 PIDは自然と敵対的に訓練された原始モデルの両方と互換性がある。 3つのホワイトボックス、3つのブラックボックス、1つの混合敵攻撃で4つの検出方法を上回っている。
参考スコア（独自算出の注目度）: 31.535244194865236
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Adversarial detection protects models from adversarial attacks by refusing suspicious test samples. However, current detection methods often suffer from weak generalization: their effectiveness tends to degrade significantly when applied to adversarially trained models rather than naturally trained ones, and they generally struggle to achieve consistent effectiveness across both white-box and black-box attack settings. In this work, we observe that an auxiliary model, differing from the primary model in training strategy or model architecture, tends to assign low confidence to the primary model's predictions on adversarial examples (AEs), while preserving high confidence on normal examples (NEs). Based on this discovery, we propose Prediction Inconsistency Detector (PID), a lightweight and generalizable detection framework to distinguish AEs from NEs by capturing the prediction inconsistency between the primal and auxiliary models. PID is compatible with both naturally and adversarially trained primal models and outperforms four detection methods across 3 white-box, 3 black-box, and 1 mixed adversarial attacks. Specifically, PID achieves average AUC scores of 99.29\% and 99.30\% on CIFAR-10 when the primal model is naturally and adversarially trained, respectively, and 98.31% and 96.81% on ImageNet under the same conditions, outperforming existing SOTAs by 4.70%$\sim$25.46%.
Abstract（参考訳）: 敵検出は、不審なテストサンプルを拒絶することで、敵攻撃からモデルを保護する。しかしながら、現在の検出方法は、しばしば弱い一般化に悩まされる: それらの効果は、自然に訓練されたモデルではなく、敵対的に訓練されたモデルに適用された場合、大幅に低下する傾向にあり、一般に、ホワイトボックスとブラックボックスの攻撃設定の両方で一貫した効果を達成するのに苦労する。本研究では, 学習戦略やモデルアーキテクチャの一次モデルと異なる補助モデルでは, 正規例(NE)に高い信頼を保ちながら, 敵例(AE)に主モデルの予測に低信頼を割り当てる傾向があることを観察する。この発見に基づいて、予備モデルと補助モデル間の予測不整合を捕捉し、AEとNEを区別する軽量で一般化可能な検出フレームワークである予測不整合検出器(PID)を提案する。 PIDは、自然と敵対的に訓練された原始モデルの両方と互換性があり、3つのホワイトボックス、3つのブラックボックス、1つの混合敵攻撃で4つの検出方法を上回っている。具体的には、プライマリモデルがそれぞれ自然に訓練された場合のCIFAR-10の平均AUCスコアは99.29\%と99.30\%であり、ImageNetでは98.31%と96.81%であり、既存のSOTAの4.70%$\sim$25.46%を上回っている。

関連論文リスト

AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文参考訳（メタデータ） (2024-08-04T09:53:50Z)
PASA: Attack Agnostic Unsupervised Adversarial Detection using Prediction & Attribution Sensitivity Analysis [2.5347892611213614]
分類のためのディープニューラルネットワークは、サンプル入力に対する小さな摂動が誤った予測につながる敵攻撃に対して脆弱である。本研究では, モデル予測と特徴属性のこの特性の実用的手法を開発し, 対向サンプルを検出する。本手法は,敵が防御機構を認識した場合でも,競争性能を示す。
論文参考訳（メタデータ） (2024-04-12T21:22:21Z)
Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文参考訳（メタデータ） (2024-01-09T04:33:03Z)
Adversarial defense based on distribution transfer [22.14684430074648]
敵対的な例の存在は、ディープラーニングモデルとその応用に重大な脅威をもたらす。既存の防御方法は、敵の例に対してある種の弾力性を提供するが、しばしば精度の低下と一般化性能に悩まされる。本稿では,拡散モデルの分散伝達能力を利用した分散シフトに基づく防御手法を提案する。
論文参考訳（メタデータ） (2023-11-23T08:01:18Z)
When Fairness Meets Privacy: Exploring Privacy Threats in Fair Binary Classifiers via Membership Inference Attacks [17.243744418309593]
本研究では,公平度差分結果に基づく公平度向上モデルに対する効率的なMIA手法を提案する。また、プライバシー漏洩を緩和するための潜在的戦略についても検討する。
論文参考訳（メタデータ） (2023-11-07T10:28:17Z)
Careful What You Wish For: on the Extraction of Adversarially Trained Models [2.707154152696381]
最近の機械学習(ML)モデルに対する攻撃は、いくつかのセキュリティとプライバシの脅威を引き起こす。本稿では,敵の学習したモデルに対する抽出攻撃を評価する枠組みを提案する。本研究では, 自然学習環境下で得られたモデルよりも, 敵の訓練を受けたモデルの方が抽出攻撃に対して脆弱であることを示す。
論文参考訳（メタデータ） (2022-07-21T16:04:37Z)
MEMO: Test Time Robustness via Adaptation and Augmentation [131.28104376280197]
テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。最近の先行研究ではテスト時間適応法が提案されているが、それぞれ追加の仮定を導入している。モデルが確率的で適応可能な任意のテスト環境で使用できるシンプルなアプローチを提案する。
論文参考訳（メタデータ） (2021-10-18T17:55:11Z)
Improving White-box Robustness of Pre-processing Defenses via Joint Adversarial Training [106.34722726264522]
対向騒音の干渉を軽減するため,様々な対向防御技術が提案されている。プレプロセス法は、ロバストネス劣化効果に悩まされることがある。この負の効果の潜在的な原因は、敵の訓練例が静的であり、前処理モデルとは独立していることである。本稿では,JATP(Joint Adversarial Training Based Pre-processing)防衛法を提案する。
論文参考訳（メタデータ） (2021-06-10T01:45:32Z)
Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文参考訳（メタデータ） (2021-05-31T17:01:05Z)
Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文参考訳（メタデータ） (2020-02-14T12:36:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。