論文の概要: Metrics and methods for robustness evaluation of neural networks with
generative models
- arxiv url: http://arxiv.org/abs/2003.01993v2
- Date: Sun, 15 Mar 2020 15:55:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 12:05:11.205393
- Title: Metrics and methods for robustness evaluation of neural networks with
generative models
- Title(参考訳): 生成モデルを用いたニューラルネットワークのロバストネス評価のメトリクスと方法
- Authors: Igor Buzhinsky, Arseny Nerinovsky, Stavros Tripakis
- Abstract要約: 近年、特にコンピュータビジョンにおいて、研究者たちは回転、明るさの変化、より高レベルな変化などの「自然な」あるいは「意味的な」摂動を発見した。
本稿では,分類器の頑健度を自然な逆数例に測定するための指標と,それらの評価方法を提案する。
- 参考スコア(独自算出の注目度): 0.07366405857677225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown that modern deep neural network classifiers are
easy to fool, assuming that an adversary is able to slightly modify their
inputs. Many papers have proposed adversarial attacks, defenses and methods to
measure robustness to such adversarial perturbations. However, most commonly
considered adversarial examples are based on $\ell_p$-bounded perturbations in
the input space of the neural network, which are unlikely to arise naturally.
Recently, especially in computer vision, researchers discovered "natural" or
"semantic" perturbations, such as rotations, changes of brightness, or more
high-level changes, but these perturbations have not yet been systematically
utilized to measure the performance of classifiers. In this paper, we propose
several metrics to measure robustness of classifiers to natural adversarial
examples, and methods to evaluate them. These metrics, called latent space
performance metrics, are based on the ability of generative models to capture
probability distributions, and are defined in their latent spaces. On three
image classification case studies, we evaluate the proposed metrics for several
classifiers, including ones trained in conventional and robust ways. We find
that the latent counterparts of adversarial robustness are associated with the
accuracy of the classifier rather than its conventional adversarial robustness,
but the latter is still reflected on the properties of found latent
perturbations. In addition, our novel method of finding latent adversarial
perturbations demonstrates that these perturbations are often perceptually
small.
- Abstract(参考訳): 最近の研究では、敵が入力をわずかに修正できると仮定して、現代のディープニューラルネットワーク分類器は簡単に騙せることが示されている。
多くの論文は、そのような敵対的摂動に対する強固さを測定するための敵対的攻撃、防御、および方法を提案している。
しかし、最も一般的に見なされる敵の例は、ニューラルネットワークの入力空間における$\ell_p$-bounded摂動に基づいている。
近年、特にコンピュータビジョンにおいて、研究者は回転や明るさの変化、よりハイレベルな変化といった「自然な」あるいは「意味的な」摂動を発見したが、これらの摂動は分類器の性能を測定するために体系的に利用されていない。
本稿では,分類器の頑健度を自然な逆数例に測定するための指標と評価方法を提案する。
これらの指標は潜在空間性能指標と呼ばれ、確率分布をキャプチャする生成モデルの能力に基づいており、その潜在空間で定義される。
画像分類の3つのケーススタディにおいて,従来のロバストな方法での学習を含む複数の分類器について,提案手法の評価を行った。
対向強靭性は, 従来の対向強靭性よりも分類器の精度に関係していることがわかったが, 後者は, 検出された逆向性摂動の性質に反映されている。
さらに, 潜在性対向性摂動を検出する新しい手法は, これらの摂動が知覚的に小さいことを示す。
関連論文リスト
- Detecting Adversarial Attacks in Semantic Segmentation via Uncertainty Estimation: A Deep Analysis [12.133306321357999]
セグメンテーションのためのニューラルネットワークに対する敵攻撃を検出する不確実性に基づく手法を提案する。
我々は,不確実性に基づく敵攻撃の検出と様々な最先端ニューラルネットワークの詳細な解析を行う。
提案手法の有効性を示す数値実験を行った。
論文 参考訳(メタデータ) (2024-08-19T14:13:30Z) - Mitigating Feature Gap for Adversarial Robustness by Feature
Disentanglement [61.048842737581865]
逆方向の微調整法は, 逆方向の訓練方法で, 自然に事前訓練されたモデルを微調整することにより, 逆方向の強靭性を高めることを目的としている。
特徴ギャップの原因となる潜伏する特徴を明示的にモデル化し,取り除く,アンタングルメントに基づくアプローチを提案する。
3つのベンチマークデータセットに対する実証的な評価は、我々のアプローチが既存の逆方向の微調整法や逆方向のトレーニングベースラインを超えていることを示している。
論文 参考訳(メタデータ) (2024-01-26T08:38:57Z) - How adversarial attacks can disrupt seemingly stable accurate classifiers [76.95145661711514]
敵攻撃は、入力データに不連続な修正を加えることで、非正確な学習システムの出力を劇的に変化させる。
ここでは,これは高次元入力データを扱う分類器の基本的特徴であると考えられる。
実用システムで観測される重要な振る舞いを高い確率で発生させる、単純で汎用的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-07T12:02:00Z) - Residual Error: a New Performance Measure for Adversarial Robustness [85.0371352689919]
ディープラーニングの広く普及を制限する大きな課題は、敵の攻撃に対する脆弱さである。
本研究は,ディープニューラルネットワークの対角強靭性を評価するための新しい性能尺度である残留誤差の概念を提示する。
画像分類を用いた実験結果から,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2021-06-18T16:34:23Z) - Localized Uncertainty Attacks [9.36341602283533]
深層学習モデルに対する局所的不確実性攻撃を示す。
我々は、分類器が不確実な入力の領域のみを摂動することで、逆例を作成する。
$ell_p$ ballやパーターブ入力を無差別に検出する機能攻撃とは異なり、ターゲットとする変更は認識できない。
論文 参考訳(メタデータ) (2021-06-17T03:07:22Z) - Adversarial Perturbations Are Not So Weird: Entanglement of Robust and
Non-Robust Features in Neural Network Classifiers [4.511923587827301]
標準的な方法でトレーニングされたニューラルネットワークでは、ロバストでない機能は、小さな"非セマンティック"パターンに反応する。
逆の例は、これらの小さな絡み合ったパターンに対する、最小限の摂動によって形成できます。
論文 参考訳(メタデータ) (2021-02-09T20:21:31Z) - Closeness and Uncertainty Aware Adversarial Examples Detection in
Adversarial Machine Learning [0.7734726150561088]
敵のサンプルを検出するための2つの異なるメトリクス群の使用法を探索し、評価します。
敵検出のための新機能を導入し、これらの指標のパフォーマンスが使用される攻撃の強さに大きく依存していることを示します。
論文 参考訳(メタデータ) (2020-12-11T14:44:59Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。