論文の概要: GradID: Adversarial Detection via Intrinsic Dimensionality of Gradients
- arxiv url: http://arxiv.org/abs/2512.12827v1
- Date: Sun, 14 Dec 2025 20:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.462218
- Title: GradID: Adversarial Detection via Intrinsic Dimensionality of Gradients
- Title(参考訳): GradID:勾配の固有次元による逆検出
- Authors: Mohammad Mahdi Razmjoo, Mohammad Mahdi Sharifian, Saeed Bagheri Shouraki,
- Abstract要約: 本稿では,モデルの入力損失景観の幾何学的特性について検討する。
提案手法の基盤となる自然データと逆データに対するIDの相違点を明らかにした。
我々の検出器は、CWやAutoAttackを含む様々な攻撃に対して既存の手法を大幅に上回り、CIFAR-10では92%以上の検出率を達成した。
- 参考スコア(独自算出の注目度): 0.1019561860229868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their remarkable performance, deep neural networks exhibit a critical vulnerability: small, often imperceptible, adversarial perturbations can lead to drastically altered model predictions. Given the stringent reliability demands of applications such as medical diagnosis and autonomous driving, robust detection of such adversarial attacks is paramount. In this paper, we investigate the geometric properties of a model's input loss landscape. We analyze the Intrinsic Dimensionality (ID) of the model's gradient parameters, which quantifies the minimal number of coordinates required to describe the data points on their underlying manifold. We reveal a distinct and consistent difference in the ID for natural and adversarial data, which forms the basis of our proposed detection method. We validate our approach across two distinct operational scenarios. First, in a batch-wise context for identifying malicious data groups, our method demonstrates high efficacy on datasets like MNIST and SVHN. Second, in the critical individual-sample setting, we establish new state-of-the-art results on challenging benchmarks such as CIFAR-10 and MS COCO. Our detector significantly surpasses existing methods against a wide array of attacks, including CW and AutoAttack, achieving detection rates consistently above 92\% on CIFAR-10. The results underscore the robustness of our geometric approach, highlighting that intrinsic dimensionality is a powerful fingerprint for adversarial detection across diverse datasets and attack strategies.
- Abstract(参考訳): その顕著な性能にもかかわらず、ディープニューラルネットワークは重大な脆弱性を示す。小さな、しばしば知覚できない、敵対的な摂動は、劇的に変化するモデル予測につながる。
医療診断や自律運転などのアプリケーションに対する信頼性の厳しい要求を考えると、このような敵攻撃の堅牢な検出が最重要である。
本稿では,モデルの入力損失景観の幾何学的特性について検討する。
モデルの勾配パラメータの内在次元(ID)を解析し、基礎となる多様体上のデータポイントを記述するのに必要な座標の最小数を定量化する。
提案手法の基盤となる自然データと逆データに対するIDの相違点を明らかにした。
私たちは2つの異なる運用シナリオにまたがってアプローチを検証する。
まず、悪意のあるデータグループを識別するバッチのコンテキストにおいて、本手法はMNISTやSVHNのようなデータセットに対して高い有効性を示す。
次に, CIFAR-10 や MS COCO など, 挑戦的なベンチマークに対して, 重要な個別サンプル設定において, 新たな最先端結果を確立する。
我々の検出器は、CWやAutoAttackを含む広範囲の攻撃に対して既存の手法をはるかに上回り、CIFAR-10における検出率は92%以上である。
この結果は、我々の幾何学的アプローチの頑健さを浮き彫りにして、本質的な次元性は多様なデータセットや攻撃戦略にまたがる敵検出のための強力な指紋であることを強調した。
関連論文リスト
- DATABench: Evaluating Dataset Auditing in Deep Learning from an Adversarial Perspective [70.77570343385928]
内的特徴(IF)と外的特徴(EF)(監査のための技術導入)に依存した既存手法の分類を新たに導入する。
回避攻撃(evasion attack)は、データセットの使用を隠蔽するために設計されたもので、偽造攻撃(forgery attack)は、未使用のデータセットを誤って含んでいることを意図している。
さらに,既存手法の理解と攻撃目標に基づいて,回避のための分離・除去・検出,偽造の逆例に基づく攻撃方法など,系統的な攻撃戦略を提案する。
私たちのベンチマークであるData dataBenchは、17の回避攻撃、5の偽攻撃、9の攻撃で構成されています。
論文 参考訳(メタデータ) (2025-07-08T03:07:15Z) - A Few Large Shifts: Layer-Inconsistency Based Minimal Overhead Adversarial Example Detection [13.109309606764754]
我々は、ターゲットモデル自体の内部の階層的不整合を利用するプラグイン検出フレームワークを導入する。
本手法は計算オーバーヘッドを無視して最先端検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-19T00:48:53Z) - Addressing Key Challenges of Adversarial Attacks and Defenses in the Tabular Domain: A Methodological Framework for Coherence and Consistency [25.830427564563422]
CSAD(Class-Specific Anomaly Detection)は,新しい異常検出手法である。
CSADは, 広い良性分布ではなく, 予測されたクラス分布に対して, 対数サンプルを評価する。
本評価では, 異常検出率とSHAPに基づく評価を併用し, 対向検体品質のより包括的測定を行う。
論文 参考訳(メタデータ) (2024-12-10T09:17:09Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - A Geometrical Approach to Evaluate the Adversarial Robustness of Deep
Neural Networks [52.09243852066406]
対向収束時間スコア(ACTS)は、対向ロバストネス指標として収束時間を測定する。
我々は,大規模画像Netデータセットに対する異なる敵攻撃に対して,提案したACTSメトリックの有効性と一般化を検証する。
論文 参考訳(メタデータ) (2023-10-10T09:39:38Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。