論文の概要: Adversarial robustness via stochastic regularization of neural
activation sensitivity
- arxiv url: http://arxiv.org/abs/2009.11349v1
- Date: Wed, 23 Sep 2020 19:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 15:17:05.526006
- Title: Adversarial robustness via stochastic regularization of neural
activation sensitivity
- Title(参考訳): ニューラルアクティベーション感度の確率正則化による対向的ロバスト性
- Authors: Gil Fidel, Ron Bitton, Ziv Katzir, Asaf Shabtai
- Abstract要約: 両防衛目標を同時に扱う新しい防衛機構を提案する。
損失面の勾配を平坦化し、逆例を見つけるのが難しくなる。
さらに、ジャコビアン正則化を利用して、正しく分類された入力から決定を遠ざける。
- 参考スコア(独自算出の注目度): 24.02105949163359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown that the input domain of any machine learning
classifier is bound to contain adversarial examples. Thus we can no longer hope
to immune classifiers against adversarial examples and instead can only aim to
achieve the following two defense goals: 1) making adversarial examples harder
to find, or 2) weakening their adversarial nature by pushing them further away
from correctly classified data points. Most if not all the previously suggested
defense mechanisms attend to just one of those two goals, and as such, could be
bypassed by adaptive attacks that take the defense mechanism into
consideration. In this work we suggest a novel defense mechanism that
simultaneously addresses both defense goals: We flatten the gradients of the
loss surface, making adversarial examples harder to find, using a novel
stochastic regularization term that explicitly decreases the sensitivity of
individual neurons to small input perturbations. In addition, we push the
decision boundary away from correctly classified inputs by leveraging Jacobian
regularization. We present a solid theoretical basis and an empirical testing
of our suggested approach, demonstrate its superiority over previously
suggested defense mechanisms, and show that it is effective against a wide
range of adaptive attacks.
- Abstract(参考訳): 近年の研究では、任意の機械学習分類器の入力領域は、逆例を含むことが示されている。
したがって、敵の例に対して分類器を免疫することはもはや望めず、代わりに次の2つの防衛目標を達成することしかできない。
1) 敵例の発見を困難にする、又は
2) 正しく分類されたデータポイントからさらに遠ざけることにより, 敵意を弱める。
これらの2つの目標のうちの1つに先立って提案された防御機構がすべて参加していない場合、防御機構を考慮に入れた適応攻撃によって回避される可能性がある。
損失面の勾配を平らにし、敵の例を見つけるのを困難にし、個々のニューロンの小さな入力摂動に対する感度を明示的に低下させる新しい確率正規化項を用いて、新しい防御機構を提案する。
さらに,ジャコビアン正則化を利用して,決定境界を正しく分類された入力から遠ざけていく。
我々は,提案手法の確立した理論的根拠と実証実験を行い,従来提案されていた防御機構よりも優れていることを示し,幅広い適応攻撃に対して有効であることを示す。
関連論文リスト
- Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - TREATED:Towards Universal Defense against Textual Adversarial Attacks [28.454310179377302]
本稿では,様々な摂動レベルの攻撃に対して,仮定なしに防御できる汎用的対向検出手法であるTREATEDを提案する。
3つの競合するニューラルネットワークと2つの広く使われているデータセットの大規模な実験により、本手法はベースラインよりも優れた検出性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-13T03:31:20Z) - Searching for an Effective Defender: Benchmarking Defense against
Adversarial Word Substitution [83.84968082791444]
ディープニューラルネットワークは、意図的に構築された敵の例に対して脆弱である。
ニューラルNLPモデルに対する敵対的単語置換攻撃を防御する様々な方法が提案されている。
論文 参考訳(メタデータ) (2021-08-29T08:11:36Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z) - Adversarial Feature Desensitization [12.401175943131268]
本稿では,ドメイン適応分野からの洞察を基盤とした,対向ロバスト性に対する新しいアプローチを提案する。
提案手法は,入力の逆方向の摂動に対して不変な特徴を学習することを目的として,AFD(Adversarial Feature Desensitization)と呼ばれる。
論文 参考訳(メタデータ) (2020-06-08T14:20:02Z) - RAID: Randomized Adversarial-Input Detection for Neural Networks [7.37305608518763]
本稿では,2次分類器を訓練し,良性入力と逆性入力のニューロン活性化値の違いを識別する,逆性画像検出のための新しい手法であるRAIDを提案する。
RAIDは、一般的な6つの攻撃に対して評価すると、最先端技術よりも信頼性が高く、効果的である。
論文 参考訳(メタデータ) (2020-02-07T13:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。