論文の概要: Towards Defending against Adversarial Examples via Attack-Invariant
Features
- arxiv url: http://arxiv.org/abs/2106.05036v1
- Date: Wed, 9 Jun 2021 12:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:09:27.307807
- Title: Towards Defending against Adversarial Examples via Attack-Invariant
Features
- Title(参考訳): 攻撃不変特徴による敵対的事例に対する防御に向けて
- Authors: Dawei Zhou, Tongliang Liu, Bo Han, Nannan Wang, Chunlei Peng, Xinbo
Gao
- Abstract要約: ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
敵の強靭性は、敵の例を利用して改善することができる。
目に見えない種類の敵の例に基づいて訓練されたモデルは、一般的に、目に見えない種類の敵の例にうまく一般化できない。
- 参考スコア(独自算出の注目度): 147.85346057241605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) are vulnerable to adversarial noise. Their
adversarial robustness can be improved by exploiting adversarial examples.
However, given the continuously evolving attacks, models trained on seen types
of adversarial examples generally cannot generalize well to unseen types of
adversarial examples. To solve this problem, in this paper, we propose to
remove adversarial noise by learning generalizable invariant features across
attacks which maintain semantic classification information. Specifically, we
introduce an adversarial feature learning mechanism to disentangle invariant
features from adversarial noise. A normalization term has been proposed in the
encoded space of the attack-invariant features to address the bias issue
between the seen and unseen types of attacks. Empirical evaluations demonstrate
that our method could provide better protection in comparison to previous
state-of-the-art approaches, especially against unseen types of attacks and
adaptive attacks.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
その敵意の強固さは、敵意の例を生かして改善することができる。
しかし、連続的に進化する攻撃を考えると、見かけるタイプの敵の例で訓練されたモデルは一般的に、見えないタイプの敵の例にうまく一般化できない。
そこで本研究では,セマンティックな分類情報を保持する攻撃に対して,一般化可能な不変特徴を学習することにより,敵対的ノイズを取り除くことを提案する。
具体的には, 逆雑音から不変特徴を分離する逆特徴学習機構を提案する。
攻撃-不変特徴のエンコード空間で正規化項が提案されており、見られている種類の攻撃と目に見えない攻撃の間のバイアス問題に対処する。
経験的評価により,本手法は従来の最先端手法と比較して,特に認識できないタイプの攻撃や適応攻撃に対して,より優れた保護を提供できることが示された。
関連論文リスト
- StyLess: Boosting the Transferability of Adversarial Examples [10.607781970035083]
敵対的攻撃は、良心的な例に知覚できない摂動を加えることによって、ディープニューラルネットワーク(DNN)を誤解させる可能性がある。
本研究では,攻撃伝達性を向上させるために,スタイルレス摂動(StyLess)と呼ばれる新たな攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-04-23T08:23:48Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - TREATED:Towards Universal Defense against Textual Adversarial Attacks [28.454310179377302]
本稿では,様々な摂動レベルの攻撃に対して,仮定なしに防御できる汎用的対向検出手法であるTREATEDを提案する。
3つの競合するニューラルネットワークと2つの広く使われているデータセットの大規模な実験により、本手法はベースラインよりも優れた検出性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-13T03:31:20Z) - Localized Uncertainty Attacks [9.36341602283533]
深層学習モデルに対する局所的不確実性攻撃を示す。
我々は、分類器が不確実な入力の領域のみを摂動することで、逆例を作成する。
$ell_p$ ballやパーターブ入力を無差別に検出する機能攻撃とは異なり、ターゲットとする変更は認識できない。
論文 参考訳(メタデータ) (2021-06-17T03:07:22Z) - Removing Adversarial Noise in Class Activation Feature Space [160.78488162713498]
クラスアクティベーション機能空間において,自己監視型対人訓練機構を実装することにより,対人雑音の除去を提案する。
クラスアクティベーション機能空間における敵対例と自然な例の間の距離を最小にするために、デノイジングモデルを訓練する。
経験的評価により, 従来の手法と比較して, 敵対的堅牢性が有意に向上できることが示された。
論文 参考訳(メタデータ) (2021-04-19T10:42:24Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z) - Adversarial Feature Desensitization [12.401175943131268]
本稿では,ドメイン適応分野からの洞察を基盤とした,対向ロバスト性に対する新しいアプローチを提案する。
提案手法は,入力の逆方向の摂動に対して不変な特徴を学習することを目的として,AFD(Adversarial Feature Desensitization)と呼ばれる。
論文 参考訳(メタデータ) (2020-06-08T14:20:02Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。