論文の概要: Sensitivity as a Double-Edged Sword: A Trade-off Between Discriminability and Adversarial Robustness
- arxiv url: http://arxiv.org/abs/2606.01746v1
- Date: Mon, 01 Jun 2026 06:09:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.409132
- Title: Sensitivity as a Double-Edged Sword: A Trade-off Between Discriminability and Adversarial Robustness
- Title(参考訳): ダブルエッジソードとしての感性:識別可能性と対向ロバスト性とのトレードオフ
- Authors: Kai Wang,
- Abstract要約: 現代のニューラルネットワークは、敵の摂動に非常に敏感である。
本研究では、この脆弱性の一部は、広く使われている完全連結型(FC)分類器の摂動に対する感度に起因すると同定する。
我々は,複数のサロゲートと強力なAutoAttackを併用して,公正かつ堅牢な評価を実現する,厳密な評価プロトコルであるMixed Surrogate Attack (MSA)を提案する。
- 参考スコア(独自算出の注目度): 4.214948855787466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern neural networks are highly susceptible to adversarial perturbations. In this work, we identify that part of this vulnerability stems from the sensitivity of the widely used fully connected (FC) classifiers to such perturbations. In contrast, simple $\ell_2$ distance-based classifiers exhibit significantly greater robustness. We provide thorough theoretical and empirical analysis showing that while FC classifiers' high sensitivity makes them discriminative, it also makes them vulnerable. Conversely, $\ell_2$-classifiers' insensitivity grants robustness but limits performance. Motivated by this trade-off, we propose a novel $\ell_2$-reclassifier based on a Hybrid Prototype Mixing (HPM) framework. This method retains the discriminative power of FC classifiers while leveraging the robustness of $\ell_2$ distance. It yields $\ell_2$-distance-based predictions by fusing two prototype types: (1) stable, dataset-level prototypes updated via EMA, and (2) dynamic, batch-level prototypes generated from the FC classifier's predictions using a Straight-Through Estimator (STE). However, this dynamic, STE-based architecture introduces significant challenges for evaluation, such as gradient obfuscation and forward discontinuity. To address this, we propose a new, rigorous evaluation protocol, the Mixed Surrogate Attack (MSA), which uses multiple surrogates along with powerful AutoAttack to ensure a fair and robust assessment. Extensive experiments demonstrate that our lightweight, plug-and-play module, with minimal fine-tuning, effectively enhances the adversarial robustness of various existing SOTA adversarially trained models.
- Abstract(参考訳): 現代のニューラルネットワークは、敵の摂動に非常に敏感である。
本研究では、この脆弱性の一部は、広く使われている完全連結型(FC)分類器の摂動に対する感度に起因すると同定する。
対照的に、単純な$\ell_2$ 距離ベース分類器はより強い堅牢性を示す。
FC分類器の高感度化により識別能は低下するが, 識別能は低下する。
逆に$\ell_2$-classifiersの感度は頑健さを許すが、性能は制限される。
このトレードオフに触発され,Hybrid Prototype Mixing (HPM) フレームワークに基づいた$\ell_2$-reclassifierを提案する。
この方法は、FC分類器の識別力を保ちながら、$\ell_2$ 距離のロバスト性を活用している。
1) 安定的でデータセットレベルのプロトタイプをEMAで更新し、(2) FC分類器の予測から生成された動的でバッチレベルのプロトタイプをSTE(Straight-Through Estimator)を使って生成する。
しかし、この動的STEベースのアーキテクチャは、勾配難読化や前方不連続といった評価に重大な課題をもたらす。
そこで我々は,複数のサロゲートと強力なAutoAttackを併用し,公平かつ堅牢なアセスメントを実現する,厳密な評価プロトコルであるMixed Surrogate Attack (MSA)を提案する。
我々の軽量なプラグアンドプレイモジュールは、最小限の微調整で、様々な既存のSOTAモデルの対角的堅牢性を効果的に向上することを示した。
関連論文リスト
- NetDiffuser: Deceiving DNN-Based Network Attack Detection Systems with Diffusion-Generated Adversarial Traffic [1.8225278540778656]
本稿では,ネットワーク侵入検知システム (NIDS) を無効化可能な自然敵例(NAE)を生成するためのフレームワークであるNetDiffuserを提案する。
NetDiffuserは攻撃成功率を29.93%向上させ、AE検出性能を少なくとも0.267(時には0.534まで)削減する。
論文 参考訳(メタデータ) (2026-03-09T20:13:51Z) - GuardFed: A Trustworthy Federated Learning Framework Against Dual-Facet Attacks [56.983319121358555]
フェデレートラーニング(FL)は、プライバシ保護のための協調モデルトレーニングを可能にするが、敵の行動に弱いままである。
本稿では,予測精度とグループフェアネスを同時に損なう新たな脅威モデルであるデュアル顔攻撃(DFA)を紹介する。
本稿では,少量のクリーンサーバデータを用いて,公正な参照モデルを維持する自己適応型防衛フレームワークであるGuardFedを提案する。
論文 参考訳(メタデータ) (2025-11-12T13:02:45Z) - Deep Positive-Negative Prototypes for Adversarially Robust Discriminative Prototypical Learning [0.24999074238880484]
本稿では,Adv-DPNP(Adversarially Training Deep Positive-Negative Prototypes)という新しいフレームワークを提案する。
Adv-DPNPは、差別的プロトタイプベースの学習と敵対訓練を統合している。
以上の結果から,Adv-DPNPは重大度および汚職種別の平均精度が最も高いことを示す。
論文 参考訳(メタデータ) (2025-04-03T15:42:58Z) - Enhancing Robust Representation in Adversarial Training: Alignment and
Exclusion Criteria [61.048842737581865]
対人訓練 (AT) は, 頑健な特徴の学習を省略し, 対人的頑健さの低下を招いた。
非対称な負のコントラストと逆の注意によって、頑健な表現を得るためのATの一般的なフレームワークを提案する。
3つのベンチマークデータセットの実証評価により,ATの堅牢性を大幅に向上し,最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2023-10-05T07:29:29Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Generative Adversarial Network-Driven Detection of Adversarial Tasks in
Mobile Crowdsensing [5.675436513661266]
クラウドセンシングシステムは、不特定かつユビキタスなプロパティの上に構築されるため、さまざまな攻撃に対して脆弱である。
以前の研究では、GANベースの攻撃は実験的に設計された攻撃サンプルよりも重大な破壊力を示すことが示唆されている。
本稿では,GANモデルを統合することにより,知的に設計された不正なセンシングサービス要求を検出することを目的とする。
論文 参考訳(メタデータ) (2022-02-16T00:23:25Z) - SmoothMix: Training Confidence-calibrated Smoothed Classifiers for
Certified Robustness [61.212486108346695]
自己混合によるスムーズな分類器のロバスト性を制御するためのトレーニングスキームSmoothMixを提案する。
提案手法は, 厳密性に制限された原因として, 信頼性の低い, オフクラスに近いサンプルを効果的に同定する。
提案手法はスムーズな分類器の検証値である$ell$-robustnessを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-11-17T18:20:59Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Robust Classification Under $\ell_0$ Attack for the Gaussian Mixture
Model [39.414875342234204]
フィルタとトランケーションの2つの主要モジュールを持つFilTrunと呼ばれる新しい分類アルゴリズムを開発した。
敵対的摂動の効果が完全に中和できるかどうかを判断する敵対的予算の段階遷移など、興味深い行動を示すいくつかの例を議論する。
論文 参考訳(メタデータ) (2021-04-05T23:31:25Z) - Consistency Regularization for Certified Robustness of Smoothed
Classifiers [89.72878906950208]
最近のランダムな平滑化技術は、最悪の$ell$-robustnessを平均ケースのロバストネスに変換することができることを示している。
その結果,スムーズな分類器の精度と信頼性の高いロバスト性とのトレードオフは,ノイズに対する予測一貫性の規則化によって大きく制御できることが判明した。
論文 参考訳(メタデータ) (2020-06-07T06:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。