論文の概要: Beating Attackers At Their Own Games: Adversarial Example Detection
Using Adversarial Gradient Directions
- arxiv url: http://arxiv.org/abs/2012.15386v1
- Date: Thu, 31 Dec 2020 01:12:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 04:11:07.335944
- Title: Beating Attackers At Their Own Games: Adversarial Example Detection
Using Adversarial Gradient Directions
- Title(参考訳): 自分のゲームで攻撃者を打ち負かす - 逆勾配方向を用いた逆例検出
- Authors: Yuhang Wu, Sunpreet S. Arora, Yanhong Wu, Hao Yang
- Abstract要約: 提案手法は, 対向勾配の方向が対向空間を特徴づける上で重要な役割を担っていることを示す。
CIFAR-10とImageNetの2つの異なるデータベースで実施された実験により、提案手法は5つの異なる攻撃に対して97.9%と98.6%のAUC-ROCを達成した。
- 参考スコア(独自算出の注目度): 16.993439721743478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial examples are input examples that are specifically crafted to
deceive machine learning classifiers. State-of-the-art adversarial example
detection methods characterize an input example as adversarial either by
quantifying the magnitude of feature variations under multiple perturbations or
by measuring its distance from estimated benign example distribution. Instead
of using such metrics, the proposed method is based on the observation that the
directions of adversarial gradients when crafting (new) adversarial examples
play a key role in characterizing the adversarial space. Compared to detection
methods that use multiple perturbations, the proposed method is efficient as it
only applies a single random perturbation on the input example. Experiments
conducted on two different databases, CIFAR-10 and ImageNet, show that the
proposed detection method achieves, respectively, 97.9% and 98.6% AUC-ROC (on
average) on five different adversarial attacks, and outperforms multiple
state-of-the-art detection methods. Results demonstrate the effectiveness of
using adversarial gradient directions for adversarial example detection.
- Abstract(参考訳): 逆例は、特に機械学習分類器を騙すために作られた入力例である。
最先端の逆例検出手法は、複数の摂動下における特徴変動の大きさを定量化するか、推定された良質な例分布からの距離を測定することによって、入力例を逆数として特徴づける。
提案手法は,このような指標を使わずに,(新しい)対向例を作成する際の対向勾配の方向が,対向空間を特徴づける上で重要な役割を担っていることを示す。
複数の摂動を用いた検出法と比較すると,提案手法は入力例に単一のランダム摂動のみを適用するので効率的である。
CIFAR-10 と ImageNet の2つの異なるデータベースで行った実験により,提案手法は5つの異なる攻撃に対して 97.9% と 98.6% の AUC-ROC (平均) をそれぞれ達成し,複数の最先端検出手法より優れていることが示された。
その結果, 対向勾配方向を用いた対向例検出の有効性が示された。
関連論文リスト
- Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。
我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。
検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文 参考訳(メタデータ) (2024-11-21T17:46:55Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - Towards Black-box Adversarial Example Detection: A Data
Reconstruction-based Method [9.857570123016213]
ブラックボックス攻撃はより現実的な脅威であり、様々なブラックボックス敵の訓練ベースの防御方法につながっている。
BAD問題に対処するために,データ再構成に基づく逆例検出手法を提案する。
論文 参考訳(メタデータ) (2023-06-03T06:34:17Z) - Adversarial Examples Detection with Enhanced Image Difference Features
based on Local Histogram Equalization [20.132066800052712]
本稿では,高頻度情報強調戦略に基づく逆例検出フレームワークを提案する。
このフレームワークは、敵の例と通常の例との特徴的差異を効果的に抽出し、増幅することができる。
論文 参考訳(メタデータ) (2023-05-08T03:14:01Z) - AdvCheck: Characterizing Adversarial Examples via Local Gradient
Checking [3.425727850372357]
局所勾配の概念を導入し、逆例が良性勾配よりも大きい局所勾配を持つことを示した。
具体的には、いくつかの良性例とノイズ付加型誤分類例から局所勾配を計算して検出器を訓練することにより、逆例や誤分類された自然入力さえも、良性のあるものと正確に区別することができる。
我々は、AdvCheckの最先端(SOTA)ベースラインに対する優れた性能を検証し、一般的な敵攻撃に対する検出率(sim times 1.2$)、誤分類された自然入力に対する検出率(sim times 1.4$)で検証した。
論文 参考訳(メタデータ) (2023-03-25T17:46:09Z) - TREATED:Towards Universal Defense against Textual Adversarial Attacks [28.454310179377302]
本稿では,様々な摂動レベルの攻撃に対して,仮定なしに防御できる汎用的対向検出手法であるTREATEDを提案する。
3つの競合するニューラルネットワークと2つの広く使われているデータセットの大規模な実験により、本手法はベースラインよりも優れた検出性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-13T03:31:20Z) - Adversarial Examples Detection beyond Image Space [88.7651422751216]
摂動と予測信頼の間にはコンプライアンスが存在することが分かり、予測信頼の面から少数の摂動攻撃を検出するための指針となる。
本研究では,画像ストリームが画素アーティファクトに注目し,勾配ストリームが信頼度アーティファクトに対応する2ストリームアーキテクチャによる画像空間を超えた手法を提案する。
論文 参考訳(メタデータ) (2021-02-23T09:55:03Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z) - Effective and Robust Detection of Adversarial Examples via
Benford-Fourier Coefficients [40.9343499298864]
アドリラルな例は、ディープニューラルネットワーク(DNN)に対する深刻な脅威としてよく知られている。
本研究では, 一般ガウス分布(GGD)に従えば, 対向例と良性例の両方に対して, 一つのモデルの出力と内部応答が従うという仮定に基づいて, 対向例の検出について検討する。
我々は,ベンフォード・フーリエ係数(MBF)の大きさを利用して,逆方向検出のための形状因子を用いて識別的特徴を構築することを提案する。
論文 参考訳(メタデータ) (2020-05-12T05:20:59Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。