論文の概要: AdvCheck: Characterizing Adversarial Examples via Local Gradient
Checking
- arxiv url: http://arxiv.org/abs/2303.18131v1
- Date: Sat, 25 Mar 2023 17:46:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-09 05:54:09.533503
- Title: AdvCheck: Characterizing Adversarial Examples via Local Gradient
Checking
- Title(参考訳): AdvCheck: 局所勾配チェックによる逆例の特徴付け
- Authors: Ruoxi Chen, Haibo Jin, Jinyin Chen, Haibin Zheng
- Abstract要約: 局所勾配の概念を導入し、逆例が良性勾配よりも大きい局所勾配を持つことを示した。
具体的には、いくつかの良性例とノイズ付加型誤分類例から局所勾配を計算して検出器を訓練することにより、逆例や誤分類された自然入力さえも、良性のあるものと正確に区別することができる。
我々は、AdvCheckの最先端(SOTA)ベースラインに対する優れた性能を検証し、一般的な敵攻撃に対する検出率(sim times 1.2$)、誤分類された自然入力に対する検出率(sim times 1.4$)で検証した。
- 参考スコア(独自算出の注目度): 3.425727850372357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) are vulnerable to adversarial examples, which may
lead to catastrophe in security-critical domains. Numerous detection methods
are proposed to characterize the feature uniqueness of adversarial examples, or
to distinguish DNN's behavior activated by the adversarial examples. Detections
based on features cannot handle adversarial examples with large perturbations.
Besides, they require a large amount of specific adversarial examples. Another
mainstream, model-based detections, which characterize input properties by
model behaviors, suffer from heavy computation cost. To address the issues, we
introduce the concept of local gradient, and reveal that adversarial examples
have a quite larger bound of local gradient than the benign ones. Inspired by
the observation, we leverage local gradient for detecting adversarial examples,
and propose a general framework AdvCheck. Specifically, by calculating the
local gradient from a few benign examples and noise-added misclassified
examples to train a detector, adversarial examples and even misclassified
natural inputs can be precisely distinguished from benign ones. Through
extensive experiments, we have validated the AdvCheck's superior performance to
the state-of-the-art (SOTA) baselines, with detection rate ($\sim \times 1.2$)
on general adversarial attacks and ($\sim \times 1.4$) on misclassified natural
inputs on average, with average 1/500 time cost. We also provide interpretable
results for successful detection.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、敵の例に弱いため、セキュリティクリティカルドメインのカタストロフィを引き起こす可能性がある。
対向例の特徴的特徴を特徴付けるために, 対向例によって活性化されるDNNの挙動を識別するために, 多数の検出手法を提案する。
特徴に基づく検出は、大きな摂動を伴う敵の例を扱えない。
さらに、それらは多くの特定の敵の例を必要とする。
モデルの振る舞いによって入力特性を特徴付ける他の主流のモデルベース検出は、重い計算コストに悩まされる。
この問題に対処するため,我々は局所勾配の概念を導入し,逆の例は良性勾配よりもかなり大きな局所勾配を持つことを明らかにした。
この観察に触発されて,局所勾配を逆例の検出に活用し,advcheckの汎用フレームワークを提案する。
具体的には、いくつかの良性例とノイズ付加誤分類例から局所勾配を計算して検出器を訓練することにより、逆例や誤分類された自然入力を良性例と正確に区別することができる。
より広範な実験により,AdvCheckの最先端SOTA(State-of-the-art)ベースラインに対する優れた性能を検証し,一般的な攻撃に対する検出率(\sim \times 1.2$)と,誤分類された自然入力に対して平均1/500の時間コストで(\sim \times 1.4$)と検証した。
検出に成功するための解釈可能な結果も提供します。
関連論文リスト
- Adversarial Examples Detection with Enhanced Image Difference Features
based on Local Histogram Equalization [20.132066800052712]
本稿では,高頻度情報強調戦略に基づく逆例検出フレームワークを提案する。
このフレームワークは、敵の例と通常の例との特徴的差異を効果的に抽出し、増幅することができる。
論文 参考訳(メタデータ) (2023-05-08T03:14:01Z) - Latent Feature Relation Consistency for Adversarial Robustness [80.24334635105829]
深層ニューラルネットワークは、人間の知覚できない敵のノイズを自然の例に付加する敵の例を予測するときに、誤分類が起こる。
textbfLatent textbfFeature textbfRelation textbfConsistency (textbfLFRC)を提案する。
LFRCは、潜在空間における逆例の関係を、自然例と整合性に制約する。
論文 参考訳(メタデータ) (2023-03-29T13:50:01Z) - Latent Boundary-guided Adversarial Training [61.43040235982727]
モデルトレーニングに敵の例を注入する最も効果的な戦略は、敵のトレーニングであることが証明されている。
本稿では, LAtent bounDary-guided aDvErsarial tRaining という新たな逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-08T07:40:55Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z) - ADC: Adversarial attacks against object Detection that evade Context
consistency checks [55.8459119462263]
文脈整合性チェックさえも、適切に構築された敵の例に対して脆弱であることを示す。
このような防御を覆す実例を生成するための適応型フレームワークを提案する。
我々の結果は、コンテキストを堅牢にモデル化し、一貫性をチェックする方法はまだ未解決の問題であることを示している。
論文 参考訳(メタデータ) (2021-10-24T00:25:09Z) - Unsupervised Detection of Adversarial Examples with Model Explanations [0.6091702876917279]
本稿では,モデル動作を説明するために開発された手法を用いて,逆例を検出するための簡易かつ効果的な手法を提案する。
MNIST手書きデータセットを用いて評価したところ,本手法は高い信頼度で敵のサンプルを検出することができることがわかった。
論文 参考訳(メタデータ) (2021-07-22T06:54:18Z) - Adversarial Examples Detection with Bayesian Neural Network [57.185482121807716]
本稿では,ランダムな成分が予測器の滑らかさを向上できるという観測によって動機づけられた敵の例を検出するための新しい枠組みを提案する。
本稿では,BATer を略した新しいベイズ対向型サンプル検出器を提案し,対向型サンプル検出の性能を向上させる。
論文 参考訳(メタデータ) (2021-05-18T15:51:24Z) - Beating Attackers At Their Own Games: Adversarial Example Detection
Using Adversarial Gradient Directions [16.993439721743478]
提案手法は, 対向勾配の方向が対向空間を特徴づける上で重要な役割を担っていることを示す。
CIFAR-10とImageNetの2つの異なるデータベースで実施された実験により、提案手法は5つの異なる攻撃に対して97.9%と98.6%のAUC-ROCを達成した。
論文 参考訳(メタデータ) (2020-12-31T01:12:24Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Are L2 adversarial examples intrinsically different? [14.77179227968466]
理論的解析により、本質的に逆例と正規入力を区別できる性質を解明する。
我々は,MNISTで最大99%,CIFARで89%,ImageNetサブセットで最大87%の分類精度を,$L$攻撃に対して達成した。
論文 参考訳(メタデータ) (2020-02-28T03:42:52Z) - Defending Adversarial Attacks via Semantic Feature Manipulation [23.48763375455514]
本稿では,敵の事例を検出・浄化するために,FM(One-off and attack-agnostic Feature Manipulation)-Defenseを提案する。
特徴の操作を可能にするために、コンボ変分オートエンコーダを適用して、意味的特徴を明らかにする非絡み合った潜在符号を学習する。
実験により、FM-Defenseは、異なる最先端の敵攻撃によって生成されるほぼ100%の敵の例を検出できることが示された。
論文 参考訳(メタデータ) (2020-02-03T23:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。