論文の概要: Adversarial Perturbations Are Not So Weird: Entanglement of Robust and
Non-Robust Features in Neural Network Classifiers
- arxiv url: http://arxiv.org/abs/2102.05110v1
- Date: Tue, 9 Feb 2021 20:21:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 21:28:44.016251
- Title: Adversarial Perturbations Are Not So Weird: Entanglement of Robust and
Non-Robust Features in Neural Network Classifiers
- Title(参考訳): ニューラルネットワーク分類器におけるロバストと非ロバストの特徴の絡み合い
- Authors: Jacob M. Springer, Melanie Mitchell, Garrett T. Kenyon
- Abstract要約: 標準的な方法でトレーニングされたニューラルネットワークでは、ロバストでない機能は、小さな"非セマンティック"パターンに反応する。
逆の例は、これらの小さな絡み合ったパターンに対する、最小限の摂動によって形成できます。
- 参考スコア(独自算出の注目度): 4.511923587827301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks trained on visual data are well-known to be vulnerable to
often imperceptible adversarial perturbations. The reasons for this
vulnerability are still being debated in the literature. Recently Ilyas et al.
(2019) showed that this vulnerability arises, in part, because neural network
classifiers rely on highly predictive but brittle "non-robust" features. In
this paper we extend the work of Ilyas et al. by investigating the nature of
the input patterns that give rise to these features. In particular, we
hypothesize that in a neural network trained in a standard way, non-robust
features respond to small, "non-semantic" patterns that are typically entangled
with larger, robust patterns, known to be more human-interpretable, as opposed
to solely responding to statistical artifacts in a dataset. Thus, adversarial
examples can be formed via minimal perturbations to these small, entangled
patterns. In addition, we demonstrate a corollary of our hypothesis: robust
classifiers are more effective than standard (non-robust) ones as a source for
generating transferable adversarial examples in both the untargeted and
targeted settings. The results we present in this paper provide new insight
into the nature of the non-robust features responsible for adversarial
vulnerability of neural network classifiers.
- Abstract(参考訳): 視覚データに基づいてトレーニングされたニューラルネットワークは、しばしば知覚できない敵の摂動に対して脆弱であることが知られている。
この脆弱性の理由はまだ文献で議論されている。
最近Ilyasら。
(2019) は、この脆弱性が部分的には、ニューラルネットワーク分類器が高い予測性を持つが不安定な「非破壊的」な特徴に依存しているためであることを示した。
この論文では、Ilyas et alの作品を拡張します。
これらの特徴を生み出す入力パターンの性質を調べることによって。
特に、標準的な方法で訓練されたニューラルネットワークでは、データセット内の統計的アーティファクトにのみ対応するのではなく、典型的には大規模で堅牢なパターンで絡み合っている、小さくて「非セマンティック」なパターンに非ロバストな特徴が応答すると仮定する。
したがって、逆の例は、これらの小さな絡み合ったパターンに対する最小の摂動によって形成することができる。
堅牢な分類器は、標準(非ロバスト)のものよりも効果的であり、非目標設定とターゲット設定の両方において、転送可能な逆例を生成するソースとして有効である。
本稿では,ニューラルネットワーク分類器の敵対的脆弱性の原因となる非破壊的特徴について,新たな知見を提供する。
関連論文リスト
- On the Robustness of Neural Collapse and the Neural Collapse of Robustness [6.227447957721122]
ニューラル・コラプス(Neural Collapse)は、ニューラルネットワークのトレーニングの終盤において、特徴ベクトルと分類重みが非常に単純な幾何学的配置(単純度)に収束する奇妙な現象を指す。
これらの単純さの安定性について検討し、単純な構造は小さな対角攻撃によって消失することを示した。
我々は、ロバストな機械学習モデルと非ロバストな機械学習モデルの斬新な特性を識別し、以前の階層とは異なり、摂動データに対する信頼性の高い単純化を維持していることを示す。
論文 参考訳(メタデータ) (2023-11-13T16:18:58Z) - Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - On the Computational Entanglement of Distant Features in Adversarial Machine Learning [8.87656044562629]
計算的絡み合い」の概念を導入する
計算的絡み合いにより、未確認のテストサンプルであっても、ランダムノイズを適合させることで、ネットワークはゼロ損失を達成することができる。
本稿では, 計算エンタングルメントの新たな応用法として, 計算エンタングルメントを, 非ローバストな最悪ケースのサンプル・インプットの変換に適用する。
論文 参考訳(メタデータ) (2023-09-27T14:09:15Z) - How adversarial attacks can disrupt seemingly stable accurate classifiers [76.95145661711514]
敵攻撃は、入力データに不連続な修正を加えることで、非正確な学習システムの出力を劇的に変化させる。
ここでは,これは高次元入力データを扱う分類器の基本的特徴であると考えられる。
実用システムで観測される重要な振る舞いを高い確率で発生させる、単純で汎用的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-07T12:02:00Z) - Residual Error: a New Performance Measure for Adversarial Robustness [85.0371352689919]
ディープラーニングの広く普及を制限する大きな課題は、敵の攻撃に対する脆弱さである。
本研究は,ディープニューラルネットワークの対角強靭性を評価するための新しい性能尺度である残留誤差の概念を提示する。
画像分類を用いた実験結果から,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2021-06-18T16:34:23Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z) - Non-Singular Adversarial Robustness of Neural Networks [58.731070632586594]
小さな入力摂動に対する過敏性のため、アドリヤルロバスト性はニューラルネットワークにとって新たな課題となっている。
我々は,データ入力とモデル重みの共振レンズを用いて,ニューラルネットワークの非特異な対角性の概念を定式化する。
論文 参考訳(メタデータ) (2021-02-23T20:59:30Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Relationship between manifold smoothness and adversarial vulnerability
in deep learning with local errors [2.7834038784275403]
ニューラルネットワークにおける敵の脆弱性の起源について検討する。
本研究は,隠れ表現の固有スペクトルの比較的高速なパワーロー崩壊を必要とすることを明らかにする。
論文 参考訳(メタデータ) (2020-07-04T08:47:51Z) - Bayesian Neural Networks [0.0]
ニューラルネットワークによる予測におけるエラーを原理的に得る方法を示し、これらのエラーを特徴付ける2つの方法を提案する。
さらに、これらの2つのメソッドが実際に実施される際に、重大な落とし穴を持つ方法についても説明します。
論文 参考訳(メタデータ) (2020-06-02T09:43:00Z) - Metrics and methods for robustness evaluation of neural networks with
generative models [0.07366405857677225]
近年、特にコンピュータビジョンにおいて、研究者たちは回転、明るさの変化、より高レベルな変化などの「自然な」あるいは「意味的な」摂動を発見した。
本稿では,分類器の頑健度を自然な逆数例に測定するための指標と,それらの評価方法を提案する。
論文 参考訳(メタデータ) (2020-03-04T10:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。