論文の概要: Input-specific Attention Subnetworks for Adversarial Detection
- arxiv url: http://arxiv.org/abs/2203.12298v1
- Date: Wed, 23 Mar 2022 09:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 13:55:53.015012
- Title: Input-specific Attention Subnetworks for Adversarial Detection
- Title(参考訳): adversarial detectionのための入力特異的注意サブネットワーク
- Authors: Emil Biju, Anirudh Sriram, Pratyush Kumar, Mitesh M Khapra
- Abstract要約: 自己アテンションヘッドはトランスフォーマーモデルの特徴であり、解釈性とプルーニングのためによく研究されている。
提案手法は, 正反対の入力と正反対の入力を識別する3つの特徴を抽出する, 入力特化アテンションワーク(IAS)を構築する手法である。
その結果、この検出器は10個のNLUデータセット上のBERTの最先端の対角検出精度を7.5%以上向上させる。
- 参考スコア(独自算出の注目度): 17.051352821564002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention heads are characteristic of Transformer models and have been
well studied for interpretability and pruning. In this work, we demonstrate an
altogether different utility of attention heads, namely for adversarial
detection. Specifically, we propose a method to construct input-specific
attention subnetworks (IAS) from which we extract three features to
discriminate between authentic and adversarial inputs. The resultant detector
significantly improves (by over 7.5%) the state-of-the-art adversarial
detection accuracy for the BERT encoder on 10 NLU datasets with 11 different
adversarial attack types. We also demonstrate that our method (a) is more
accurate for larger models which are likely to have more spurious correlations
and thus vulnerable to adversarial attack, and (b) performs well even with
modest training sets of adversarial examples.
- Abstract(参考訳): 自己アテンションヘッドはトランスフォーマーモデルの特徴であり、解釈性とプルーニングのためによく研究されている。
本研究は, 全く異なる注意頭の有用性, すなわち, 対向検出の実用性を実証するものである。
具体的には,入力固有の注意サブネットワーク(ias)を構築する手法を提案する。
その結果、11種類の異なる攻撃タイプを持つ10個のNLUデータセット上のBERTエンコーダの最先端の逆検出精度が7.5%以上向上した。
私たちはまた、我々の方法が
(a)は、より刺激的な相関関係を持ち、敵の攻撃に弱い大きなモデルに対してより正確である。
(b)控えめな実例の訓練セットでもうまく機能する。
関連論文リスト
- How adversarial attacks can disrupt seemingly stable accurate classifiers [76.95145661711514]
敵攻撃は、入力データに不連続な修正を加えることで、非正確な学習システムの出力を劇的に変化させる。
ここでは,これは高次元入力データを扱う分類器の基本的特徴であると考えられる。
実用システムで観測される重要な振る舞いを高い確率で発生させる、単純で汎用的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-07T12:02:00Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z) - Understanding the Logit Distributions of Adversarially-Trained Deep
Neural Networks [6.439477789066243]
敵の防御は、敵の攻撃による入力摂動に不変であるように、ディープニューラルネットワークを訓練する。
敵の攻撃を緩和するためには敵の訓練が成功しているが、敵の訓練を受けた(AT)モデルと標準モデルとの行動的差異はいまだに理解されていない。
対向性学習に不可欠な3つのロジット特性を同定する。
論文 参考訳(メタデータ) (2021-08-26T19:09:15Z) - Using Anomaly Feature Vectors for Detecting, Classifying and Warning of
Outlier Adversarial Examples [4.096598295525345]
分類ニューラルネットワークに提示される敵入力を検出し,分類し,警告するシステムであるDeClaWについて述べる。
予備的な発見は、AFVがCIFAR-10データセット上で93%近い精度で、いくつかの種類の敵攻撃を区別するのに役立つことを示唆している。
論文 参考訳(メタデータ) (2021-07-01T16:00:09Z) - Self-Supervised Adversarial Example Detection by Disentangled
Representation [16.98476232162835]
判別器ネットワークが支援するオートエンコーダを,正しくペア化されたクラス/セマンティクス特徴と誤ったペアのクラス/セマンティクス特徴の両方から訓練し,良性と反例を再構築する。
これは逆例の振る舞いを模倣し、オートエンコーダの不要な一般化能力を減らすことができる。
本手法は,最先端の自己監視検出手法と比較して,様々な測定結果において優れた性能を示す。
論文 参考訳(メタデータ) (2021-05-08T12:48:18Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。
本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。
ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T08:24:33Z) - Non-Intrusive Detection of Adversarial Deep Learning Attacks via
Observer Networks [5.4572790062292125]
近年の研究では、深層学習モデルは逆入力に弱いことが示されている。
本稿では,主分類網を複数のバイナリ検出器で拡張することにより,逆入力を検出する新しい手法を提案する。
我々は、MNISTデータセットで99.5%、CIFAR-10データセットで97.5%の精度で検出する。
論文 参考訳(メタデータ) (2020-02-22T21:13:00Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z) - RAID: Randomized Adversarial-Input Detection for Neural Networks [7.37305608518763]
本稿では,2次分類器を訓練し,良性入力と逆性入力のニューロン活性化値の違いを識別する,逆性画像検出のための新しい手法であるRAIDを提案する。
RAIDは、一般的な6つの攻撃に対して評価すると、最先端技術よりも信頼性が高く、効果的である。
論文 参考訳(メタデータ) (2020-02-07T13:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。