論文の概要: Second Order Optimization for Adversarial Robustness and
Interpretability
- arxiv url: http://arxiv.org/abs/2009.04923v1
- Date: Thu, 10 Sep 2020 15:05:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 02:51:09.111718
- Title: Second Order Optimization for Adversarial Robustness and
Interpretability
- Title(参考訳): 逆ロバスト性と解釈性の2次最適化
- Authors: Theodoros Tsiligkaridis, Jay Roberts
- Abstract要約: 本稿では,2次近似による第1次及び第2次情報を対向損失に組み込んだ新しい正則化器を提案する。
正規化器における1つの繰り返しのみを用いることで、先行勾配や曲率正規化よりも強い強靭性が得られることが示されている。
それは、ネットワークが人間の知覚によく適合する機能を学ぶという、ATの興味深い側面を保っている。
- 参考スコア(独自算出の注目度): 6.700873164609009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks are easily fooled by small perturbations known as
adversarial attacks. Adversarial Training (AT) is a technique aimed at learning
features robust to such attacks and is widely regarded as a very effective
defense. However, the computational cost of such training can be prohibitive as
the network size and input dimensions grow. Inspired by the relationship
between robustness and curvature, we propose a novel regularizer which
incorporates first and second order information via a quadratic approximation
to the adversarial loss. The worst case quadratic loss is approximated via an
iterative scheme. It is shown that using only a single iteration in our
regularizer achieves stronger robustness than prior gradient and curvature
regularization schemes, avoids gradient obfuscation, and, with additional
iterations, achieves strong robustness with significantly lower training time
than AT. Further, it retains the interesting facet of AT that networks learn
features which are well-aligned with human perception. We demonstrate
experimentally that our method produces higher quality human-interpretable
features than other geometric regularization techniques. These robust features
are then used to provide human-friendly explanations to model predictions.
- Abstract(参考訳): ディープニューラルネットワークは、敵攻撃として知られる小さな摂動によって容易に騙される。
敵対的訓練(adversarial training, at)は、このような攻撃に頑健な特徴を学習することを目的とした技術であり、非常に効果的な防御と広く見なされている。
しかし、ネットワークサイズと入力次元が大きくなると、そのようなトレーニングの計算コストは抑えられる。
頑健性と曲率の関係に着想を得て,逆損失に対する二次近似による一階と二階の情報を取り入れた新しい正規化器を提案する。
最悪の場合の二次損失は反復スキームによって近似される。
本手法では,1回の反復のみを用いることで,先行勾配および曲率正規化スキームよりも強固な頑健性を達成し,勾配難読化を回避し,さらに,atよりも大幅に低いトレーニング時間で強固な頑健性が得られることを示した。
さらに、ネットワークが人間の知覚とよく一致する特徴を学ぶという興味深い側面を保っている。
本手法は,他の幾何学的正規化手法よりも高品質なヒューマンコンタプリタブルな特徴を生成できることを実験的に証明する。
これらの堅牢な特徴は、モデル予測に人間フレンドリな説明を提供するために使用される。
関連論文リスト
- Training Image Derivatives: Increased Accuracy and Universal Robustness [3.9160947065896803]
微分学習は、低次元の応用においてニューラルネットワークの精度を大幅に向上させる既知の方法である。
本稿では,画像から立方体の頂点を再構成する画像解析問題に対して,同様の改良を行った。
デリバティブはまた、ロバストネスの問題に関する洞察を提供しており、現在は2種類のネットワーク脆弱性の観点から理解されている。
論文 参考訳(メタデータ) (2023-10-21T15:43:24Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Adversarial Training Should Be Cast as a Non-Zero-Sum Game [121.95628660889628]
対人訓練の2つのプレイヤーゼロサムパラダイムは、十分な強靭性を発揮できていない。
敵のトレーニングアルゴリズムでよく使われるサロゲートベースの緩和は、ロバスト性に関するすべての保証を無効にすることを示す。
対人訓練の新たな非ゼロサム二段階の定式化は、一致し、場合によっては最先端の攻撃よりも優れたフレームワークをもたらす。
論文 参考訳(メタデータ) (2023-06-19T16:00:48Z) - Improved Adversarial Training Through Adaptive Instance-wise Loss
Smoothing [5.1024659285813785]
敵の訓練は、このような敵の攻撃に対する最も成功した防御であった。
本稿では,新たな対人訓練手法を提案する。
本手法は,$ell_infty$-norm制約攻撃に対する最先端のロバスト性を実現する。
論文 参考訳(メタデータ) (2023-03-24T15:41:40Z) - Revisiting DeepFool: generalization and improvement [17.714671419826715]
我々は,有効性と計算効率のバランスを崩す新たな敵攻撃群を導入する。
提案手法は,大規模モデルのロバスト性の評価にも適している。
論文 参考訳(メタデータ) (2023-03-22T11:49:35Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - A Simple Fine-tuning Is All You Need: Towards Robust Deep Learning Via
Adversarial Fine-tuning [90.44219200633286]
我々は,$textitslow start, fast decay$ learning rate schedulingストラテジーに基づく,単純かつ非常に効果的な敵の微調整手法を提案する。
実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:50:15Z) - On the Generalization Properties of Adversarial Training [21.79888306754263]
本稿では,汎用的対数学習アルゴリズムの一般化性能について検討する。
滑らかさとL1のペナル化がモデルの対向的堅牢性をどのように改善するかを示すために、一連の数値的研究が行われた。
論文 参考訳(メタデータ) (2020-08-15T02:32:09Z) - Towards Achieving Adversarial Robustness by Enforcing Feature
Consistency Across Bit Planes [51.31334977346847]
我々は、高ビット平面の情報に基づいて粗い印象を形成するためにネットワークを訓練し、低ビット平面を用いて予測を洗練させる。
異なる量子化画像間で学習した表現に一貫性を付与することにより、ネットワークの対角的ロバスト性が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-04-01T09:31:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。