論文の概要: Empirical Analysis of Adversarial Robustness and Explainability Drift in Cybersecurity Classifiers
- arxiv url: http://arxiv.org/abs/2602.06395v1
- Date: Fri, 06 Feb 2026 05:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.243149
- Title: Empirical Analysis of Adversarial Robustness and Explainability Drift in Cybersecurity Classifiers
- Title(参考訳): サイバーセキュリティ分類器における対向ロバスト性および説明可能性ドリフトの実証分析
- Authors: Mona Rajhans, Vishal Khawarey,
- Abstract要約: 本稿では,2つのサイバーセキュリティ領域にまたがる敵対的堅牢性と説明可能性に関する実証的研究について述べる。
精度摂動曲線の領域として定義される量的指標であるロバストネス指数(RI)を導入する。
Phishing WebサイトとNB15データセットの実験では、一貫性のある堅牢性傾向が示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) models are increasingly deployed in cybersecurity applications such as phishing detection and network intrusion prevention. However, these models remain vulnerable to adversarial perturbations small, deliberate input modifications that can degrade detection accuracy and compromise interpretability. This paper presents an empirical study of adversarial robustness and explainability drift across two cybersecurity domains phishing URL classification and network intrusion detection. We evaluate the impact of L (infinity) bounded Fast Gradient Sign Method (FGSM) and Projected Gradient Descent (PGD) perturbations on model accuracy and introduce a quantitative metric, the Robustness Index (RI), defined as the area under the accuracy perturbation curve. Gradient based feature sensitivity and SHAP based attribution drift analyses reveal which input features are most susceptible to adversarial manipulation. Experiments on the Phishing Websites and UNSW NB15 datasets show consistent robustness trends, with adversarial training improving RI by up to 9 percent while maintaining clean-data accuracy. These findings highlight the coupling between robustness and interpretability degradation and underscore the importance of quantitative evaluation in the design of trustworthy, AI-driven cybersecurity systems.
- Abstract(参考訳): 機械学習(ML)モデルは、フィッシング検出やネットワーク侵入防止といったサイバーセキュリティアプリケーションにますます多くデプロイされている。
しかし、これらのモデルは、検出精度を低下させ、解釈しやすさを損なう可能性のある、意図的な入力修正の小さな対向的摂動に対して脆弱なままである。
本稿では,2つのサイバーセキュリティ領域にまたがる敵の堅牢性と説明可能性に関する実証的研究を行い,URL分類とネットワーク侵入検出について述べる。
モデル精度に及ぼすL(無限)有界な高速勾配符号法(FGSM)とPGD摂動の影響を評価し,精度摂動曲線の下の領域として定義された量的指標であるロバストネス指数(RI)を導入する。
グラディエントに基づく特徴感度とSHAPに基づく属性ドリフト解析により、どの入力特徴が敵の操作に最も敏感であるかを明らかにする。
Phishing WebサイトとUNSW NB15データセットの実験では、一貫性のある堅牢性傾向が示され、敵のトレーニングは、クリーンデータ精度を維持しながら、RIを最大9%改善した。
これらの知見は、堅牢性と解釈可能性の低下の結合を強調し、信頼できるAI駆動型サイバーセキュリティシステムの設計における定量的評価の重要性を強調している。
関連論文リスト
- Explainability-Guided Defense: Attribution-Aware Model Refinement Against Adversarial Data Attacks [6.573058520271728]
私たちは、トレーニング中に直接活用できる、解釈可能性と堅牢性との関連性を特定します。
本稿では,局所解釈可能なモデル非依存表現をアクティブな訓練信号に変換する属性誘導型改良フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-02T19:36:03Z) - GradID: Adversarial Detection via Intrinsic Dimensionality of Gradients [0.1019561860229868]
本稿では,モデルの入力損失景観の幾何学的特性について検討する。
提案手法の基盤となる自然データと逆データに対するIDの相違点を明らかにした。
我々の検出器は、CWやAutoAttackを含む様々な攻撃に対して既存の手法を大幅に上回り、CIFAR-10では92%以上の検出率を達成した。
論文 参考訳(メタデータ) (2025-12-14T20:16:03Z) - Towards Trustworthy Wi-Fi Sensing: Systematic Evaluation of Deep Learning Model Robustness to Adversarial Attacks [4.5835414225547195]
我々は、多様な脅威モデルと様々な攻撃リアリズムの下で、CSI深層学習モデルの堅牢性を評価する。
私たちの実験では、より小さなモデルは効率的で、クリーンなデータでも等しく機能するが、明らかにロバストさが低いことが示されています。
物理的に実現可能な信号空間の摂動は、実際の無線チャネルで実現可能なように設計されており、攻撃の成功を著しく減少させる。
論文 参考訳(メタデータ) (2025-11-25T16:24:29Z) - Deep Learning Models for Robust Facial Liveness Detection [56.08694048252482]
本研究では,現代のアンチスプーフィング手法の欠陥に対処する新しい深層学習モデルを用いて,ロバストな解を提案する。
テクスチャ解析と実際の人間の特性に関連する反射特性を革新的に統合することにより、我々のモデルは、顕著な精度でレプリカと真の存在を区別する。
論文 参考訳(メタデータ) (2025-08-12T17:19:20Z) - A Gradient-Optimized TSK Fuzzy Framework for Explainable Phishing Detection [0.0]
既存のフィッシング検出手法は高い精度と説明可能性の両立に苦慮している。
勾配に基づく手法により最適化された1次高木・スゲノ・カンファジィ推論モデルに基づく新しいフィッシングURL検出システムを提案する。
論文 参考訳(メタデータ) (2025-04-25T18:31:05Z) - Fragility-aware Classification for Understanding Risk and Improving Generalization [6.926253982569273]
リスク・リバースの観点から分類性能を評価する新しい指標であるFragility Index(FI)を導入する。
我々は, クロスエントロピー損失, ヒンジ型損失, リプシッツ損失の正確な修正を導き, 深層学習モデルへのアプローチを拡張した。
論文 参考訳(メタデータ) (2025-02-18T16:44:03Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Residual Error: a New Performance Measure for Adversarial Robustness [85.0371352689919]
ディープラーニングの広く普及を制限する大きな課題は、敵の攻撃に対する脆弱さである。
本研究は,ディープニューラルネットワークの対角強靭性を評価するための新しい性能尺度である残留誤差の概念を提示する。
画像分類を用いた実験結果から,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2021-06-18T16:34:23Z) - Non-Singular Adversarial Robustness of Neural Networks [58.731070632586594]
小さな入力摂動に対する過敏性のため、アドリヤルロバスト性はニューラルネットワークにとって新たな課題となっている。
我々は,データ入力とモデル重みの共振レンズを用いて,ニューラルネットワークの非特異な対角性の概念を定式化する。
論文 参考訳(メタデータ) (2021-02-23T20:59:30Z) - Uncertainty-Aware Deep Calibrated Salient Object Detection [74.58153220370527]
既存のディープニューラルネットワークに基づくサルエントオブジェクト検出(SOD)手法は主に高いネットワーク精度の追求に重点を置いている。
これらの手法は、信頼不均衡問題として知られるネットワーク精度と予測信頼の間のギャップを見落としている。
我々は,不確実性を考慮した深部SODネットワークを導入し,深部SODネットワークの過信を防止するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2020-12-10T23:28:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。