論文の概要: Beating Attackers At Their Own Games: Adversarial Example Detection
Using Adversarial Gradient Directions
- arxiv url: http://arxiv.org/abs/2012.15386v1
- Date: Thu, 31 Dec 2020 01:12:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 04:11:07.335944
- Title: Beating Attackers At Their Own Games: Adversarial Example Detection
Using Adversarial Gradient Directions
- Title(参考訳): 自分のゲームで攻撃者を打ち負かす - 逆勾配方向を用いた逆例検出
- Authors: Yuhang Wu, Sunpreet S. Arora, Yanhong Wu, Hao Yang
- Abstract要約: 提案手法は, 対向勾配の方向が対向空間を特徴づける上で重要な役割を担っていることを示す。
CIFAR-10とImageNetの2つの異なるデータベースで実施された実験により、提案手法は5つの異なる攻撃に対して97.9%と98.6%のAUC-ROCを達成した。
- 参考スコア(独自算出の注目度): 16.993439721743478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial examples are input examples that are specifically crafted to
deceive machine learning classifiers. State-of-the-art adversarial example
detection methods characterize an input example as adversarial either by
quantifying the magnitude of feature variations under multiple perturbations or
by measuring its distance from estimated benign example distribution. Instead
of using such metrics, the proposed method is based on the observation that the
directions of adversarial gradients when crafting (new) adversarial examples
play a key role in characterizing the adversarial space. Compared to detection
methods that use multiple perturbations, the proposed method is efficient as it
only applies a single random perturbation on the input example. Experiments
conducted on two different databases, CIFAR-10 and ImageNet, show that the
proposed detection method achieves, respectively, 97.9% and 98.6% AUC-ROC (on
average) on five different adversarial attacks, and outperforms multiple
state-of-the-art detection methods. Results demonstrate the effectiveness of
using adversarial gradient directions for adversarial example detection.
- Abstract(参考訳): 逆例は、特に機械学習分類器を騙すために作られた入力例である。
最先端の逆例検出手法は、複数の摂動下における特徴変動の大きさを定量化するか、推定された良質な例分布からの距離を測定することによって、入力例を逆数として特徴づける。
提案手法は,このような指標を使わずに,(新しい)対向例を作成する際の対向勾配の方向が,対向空間を特徴づける上で重要な役割を担っていることを示す。
複数の摂動を用いた検出法と比較すると,提案手法は入力例に単一のランダム摂動のみを適用するので効率的である。
CIFAR-10 と ImageNet の2つの異なるデータベースで行った実験により,提案手法は5つの異なる攻撃に対して 97.9% と 98.6% の AUC-ROC (平均) をそれぞれ達成し,複数の最先端検出手法より優れていることが示された。
その結果, 対向勾配方向を用いた対向例検出の有効性が示された。
関連論文リスト
- Block-Sparse Adversarial Attack to Fool Transformer-Based Text
Classifiers [49.50163349643615]
本稿では,変圧器を用いたテキスト分類器に対して,勾配に基づく逆攻撃を提案する。
実験結果から, 文の意味を抑えながら, GPT-2の精度を5%以下に抑えることができた。
論文 参考訳(メタデータ) (2022-03-11T14:37:41Z) - EAD: an ensemble approach to detect adversarial examples from the hidden
features of deep neural networks [1.3212032015497979]
本稿では,敵のサンプルを識別するためのアンサンブル逆検出器 (EAD) を提案する。
EADは、事前訓練されたディープニューラルネットワーク(DNN)の内部表現における入力インスタンスの異なる特性を利用する複数の検出器を組み合わせる。
EAD が AUROC と AUPR で最良であることを示す。
論文 参考訳(メタデータ) (2021-11-24T17:05:26Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - TREATED:Towards Universal Defense against Textual Adversarial Attacks [28.454310179377302]
本稿では,様々な摂動レベルの攻撃に対して,仮定なしに防御できる汎用的対向検出手法であるTREATEDを提案する。
3つの競合するニューラルネットワークと2つの広く使われているデータセットの大規模な実験により、本手法はベースラインよりも優れた検出性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-13T03:31:20Z) - Towards Defending against Adversarial Examples via Attack-Invariant
Features [147.85346057241605]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
敵の強靭性は、敵の例を利用して改善することができる。
目に見えない種類の敵の例に基づいて訓練されたモデルは、一般的に、目に見えない種類の敵の例にうまく一般化できない。
論文 参考訳(メタデータ) (2021-06-09T12:49:54Z) - Modeling Discriminative Representations for Out-of-Domain Detection with
Supervised Contrastive Learning [16.77134235390429]
OOD検出の主な課題は、識別的セマンティックな特徴を学習することである。
クラス内分散を最小限に抑えるための教師付きコントラスト学習目標を提案する。
我々は,サンプルの擬似多様なビューを得るために,対角的拡張機構を用いる。
論文 参考訳(メタデータ) (2021-05-29T12:54:22Z) - Enhancing Transformation-based Defenses against Adversarial Examples
with First-Order Perturbations [7.075802972628797]
研究によると、ニューラルネットワークは敵の攻撃を受けやすい。
これはニューラルネットワークベースの人工知能システムに潜在的な脅威をもたらす。
敵の摂動を逆行して敵の例に抵抗する方法を提案する。
論文 参考訳(メタデータ) (2021-03-08T06:27:24Z) - Hard-label Manifolds: Unexpected Advantages of Query Efficiency for
Finding On-manifold Adversarial Examples [67.23103682776049]
画像分類モデルに対する最近のゼロオーダーのハードラベル攻撃は、ファーストオーダーのグラデーションレベルの代替品に匹敵する性能を示している。
最近、グラデーションレベルの設定では、通常の敵対的な例がデータ多様体から離れ、オンマニホールドの例が実際には一般化エラーであることが示されている。
雑音の多い多様体距離オラクルに基づく情報理論論的議論を提案し、敵の勾配推定を通じて多様体情報を漏洩させる。
論文 参考訳(メタデータ) (2021-03-04T20:53:06Z) - Adversarial Examples Detection beyond Image Space [88.7651422751216]
摂動と予測信頼の間にはコンプライアンスが存在することが分かり、予測信頼の面から少数の摂動攻撃を検出するための指針となる。
本研究では,画像ストリームが画素アーティファクトに注目し,勾配ストリームが信頼度アーティファクトに対応する2ストリームアーキテクチャによる画像空間を超えた手法を提案する。
論文 参考訳(メタデータ) (2021-02-23T09:55:03Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。