論文の概要: Defending Adversarial Attacks via Semantic Feature Manipulation
- arxiv url: http://arxiv.org/abs/2002.02007v2
- Date: Wed, 22 Apr 2020 13:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 08:48:23.944240
- Title: Defending Adversarial Attacks via Semantic Feature Manipulation
- Title(参考訳): 意味的特徴操作による敵攻撃の防御
- Authors: Shuo Wang, Tianle Chen, Surya Nepal, Carsten Rudolph, Marthie Grobler,
Shangyu Chen
- Abstract要約: 本稿では,敵の事例を検出・浄化するために,FM(One-off and attack-agnostic Feature Manipulation)-Defenseを提案する。
特徴の操作を可能にするために、コンボ変分オートエンコーダを適用して、意味的特徴を明らかにする非絡み合った潜在符号を学習する。
実験により、FM-Defenseは、異なる最先端の敵攻撃によって生成されるほぼ100%の敵の例を検出できることが示された。
- 参考スコア(独自算出の注目度): 23.48763375455514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning models have demonstrated vulnerability to adversarial
attacks, more specifically misclassification of adversarial examples. In this
paper, we propose a one-off and attack-agnostic Feature Manipulation
(FM)-Defense to detect and purify adversarial examples in an interpretable and
efficient manner. The intuition is that the classification result of a normal
image is generally resistant to non-significant intrinsic feature changes,
e.g., varying thickness of handwritten digits. In contrast, adversarial
examples are sensitive to such changes since the perturbation lacks
transferability. To enable manipulation of features, a combo-variational
autoencoder is applied to learn disentangled latent codes that reveal semantic
features. The resistance to classification change over the morphs, derived by
varying and reconstructing latent codes, is used to detect suspicious inputs.
Further, combo-VAE is enhanced to purify the adversarial examples with good
quality by considering both class-shared and class-unique features. We
empirically demonstrate the effectiveness of detection and the quality of
purified instance. Our experiments on three datasets show that FM-Defense can
detect nearly $100\%$ of adversarial examples produced by different
state-of-the-art adversarial attacks. It achieves more than $99\%$ overall
purification accuracy on the suspicious instances that close the manifold of
normal examples.
- Abstract(参考訳): 機械学習モデルは敵の攻撃に対する脆弱性を示しており、より具体的には敵の例を誤分類している。
本稿では,一対一で攻撃非依存な特徴操作(fm)を防御し,解釈可能かつ効率的な手法で敵の事例を検出し,浄化する手法を提案する。
直感的には、通常の画像の分類結果は一般に、手書き桁の厚さの変化など、非重要な内在的特徴変化に耐性がある。
対照的に、摂動は伝達性に欠けるため、敵の例はそのような変化に敏感である。
特徴の操作を可能にするために、複合変数オートエンコーダを適用して、意味的な特徴を露呈する不連続な潜在コードを学ぶ。
潜在コードの変化と再構成から派生した形態変化に対する耐性は、疑わしい入力を検出するために使用される。
さらに、コンボベールが強化され、クラス共有特徴とクラス統一特徴の両方を考慮して、敵の例を良質に浄化する。
我々は, 検出の有効性と清められた事例の質を実証的に示す。
3つのデータセットを用いた実験により,FM-Defense は,様々な最先端の敵攻撃によって生成される敵のサンプルを 100 % 近く検出できることがわかった。
通常の例の多様体を閉じた疑わしい例に対して、99\%以上の全体的な浄化精度を達成する。
関連論文リスト
- Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。
我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。
検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文 参考訳(メタデータ) (2024-11-21T17:46:55Z) - Spatial-Frequency Discriminability for Revealing Adversarial Perturbations [53.279716307171604]
敵の摂動に対するディープニューラルネットワークの脆弱性は、コンピュータビジョンコミュニティで広く認識されている。
現在のアルゴリズムは、通常、自然および敵対的なデータの識別的分解を通じて、敵のパターンを検出する。
空間周波数Krawtchouk分解に基づく識別検出器を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:18:59Z) - Adversarial Examples Detection with Enhanced Image Difference Features
based on Local Histogram Equalization [20.132066800052712]
本稿では,高頻度情報強調戦略に基づく逆例検出フレームワークを提案する。
このフレームワークは、敵の例と通常の例との特徴的差異を効果的に抽出し、増幅することができる。
論文 参考訳(メタデータ) (2023-05-08T03:14:01Z) - AdvCheck: Characterizing Adversarial Examples via Local Gradient
Checking [3.425727850372357]
局所勾配の概念を導入し、逆例が良性勾配よりも大きい局所勾配を持つことを示した。
具体的には、いくつかの良性例とノイズ付加型誤分類例から局所勾配を計算して検出器を訓練することにより、逆例や誤分類された自然入力さえも、良性のあるものと正確に区別することができる。
我々は、AdvCheckの最先端(SOTA)ベースラインに対する優れた性能を検証し、一般的な敵攻撃に対する検出率(sim times 1.2$)、誤分類された自然入力に対する検出率(sim times 1.4$)で検証した。
論文 参考訳(メタデータ) (2023-03-25T17:46:09Z) - On the Effect of Adversarial Training Against Invariance-based
Adversarial Examples [0.23624125155742057]
この研究は、畳み込みニューラルネットワーク(CNN)における不変性に基づく逆トレーニングの効果に対処する。
本研究は,非分散型および摂動型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型を適用した場合,連続的でなく連続的に実施すべきであることを示す。
論文 参考訳(メタデータ) (2023-02-16T12:35:37Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z) - Towards Defending against Adversarial Examples via Attack-Invariant
Features [147.85346057241605]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
敵の強靭性は、敵の例を利用して改善することができる。
目に見えない種類の敵の例に基づいて訓練されたモデルは、一般的に、目に見えない種類の敵の例にうまく一般化できない。
論文 参考訳(メタデータ) (2021-06-09T12:49:54Z) - Self-Supervised Adversarial Example Detection by Disentangled
Representation [16.98476232162835]
判別器ネットワークが支援するオートエンコーダを,正しくペア化されたクラス/セマンティクス特徴と誤ったペアのクラス/セマンティクス特徴の両方から訓練し,良性と反例を再構築する。
これは逆例の振る舞いを模倣し、オートエンコーダの不要な一般化能力を減らすことができる。
本手法は,最先端の自己監視検出手法と比較して,様々な測定結果において優れた性能を示す。
論文 参考訳(メタデータ) (2021-05-08T12:48:18Z) - Are L2 adversarial examples intrinsically different? [14.77179227968466]
理論的解析により、本質的に逆例と正規入力を区別できる性質を解明する。
我々は,MNISTで最大99%,CIFARで89%,ImageNetサブセットで最大87%の分類精度を,$L$攻撃に対して達成した。
論文 参考訳(メタデータ) (2020-02-28T03:42:52Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。