論文の概要: Understanding the Logit Distributions of Adversarially-Trained Deep
Neural Networks
- arxiv url: http://arxiv.org/abs/2108.12001v1
- Date: Thu, 26 Aug 2021 19:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 23:08:56.890151
- Title: Understanding the Logit Distributions of Adversarially-Trained Deep
Neural Networks
- Title(参考訳): 逆学習型ディープニューラルネットワークのロジット分布の理解
- Authors: Landan Seguin, Anthony Ndirango, Neeli Mishra, SueYeon Chung, Tyler
Lee
- Abstract要約: 敵の防御は、敵の攻撃による入力摂動に不変であるように、ディープニューラルネットワークを訓練する。
敵の攻撃を緩和するためには敵の訓練が成功しているが、敵の訓練を受けた(AT)モデルと標準モデルとの行動的差異はいまだに理解されていない。
対向性学習に不可欠な3つのロジット特性を同定する。
- 参考スコア(独自算出の注目度): 6.439477789066243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial defenses train deep neural networks to be invariant to the input
perturbations from adversarial attacks. Almost all defense strategies achieve
this invariance through adversarial training i.e. training on inputs with
adversarial perturbations. Although adversarial training is successful at
mitigating adversarial attacks, the behavioral differences between
adversarially-trained (AT) models and standard models are still poorly
understood. Motivated by a recent study on learning robustness without input
perturbations by distilling an AT model, we explore what is learned during
adversarial training by analyzing the distribution of logits in AT models. We
identify three logit characteristics essential to learning adversarial
robustness. First, we provide a theoretical justification for the finding that
adversarial training shrinks two important characteristics of the logit
distribution: the max logit values and the "logit gaps" (difference between the
logit max and next largest values) are on average lower for AT models. Second,
we show that AT and standard models differ significantly on which samples are
high or low confidence, then illustrate clear qualitative differences by
visualizing samples with the largest confidence difference. Finally, we find
learning information about incorrect classes to be essential to learning
robustness by manipulating the non-max logit information during distillation
and measuring the impact on the student's robustness. Our results indicate that
learning some adversarial robustness without input perturbations requires a
model to learn specific sample-wise confidences and incorrect class orderings
that follow complex distributions.
- Abstract(参考訳): 敵防衛は、敵攻撃からの入力摂動に不変であるように、ディープニューラルネットワークを訓練する。
ほぼ全ての防衛戦略は、敵意の訓練を通じてこの不変性を達成する。
敵の摂動による入力の訓練
敵の攻撃を緩和する敵の訓練は成功したが、敵の訓練を受けた(AT)モデルと標準モデルの行動の違いはいまだに理解されていない。
近年のATモデル蒸留による入力摂動を伴わないロバスト性学習研究により,ATモデルにおけるロジット分布を解析し,対角訓練中に何を学んだかを検討した。
対向性学習に不可欠な3つのロジット特性を同定する。
まず,対向訓練がロジット分布の2つの重要な特性を縮小することを示すための理論的正当性を示す: 最大ロジット値と「ロジットギャップ」(ロジット最大値と次の最大値との差異)は,モデルの平均値よりも低い。
第2に、atモデルと標準モデルは、どのサンプルが信頼度が高いか低いかによって大きく異なることを示し、最も信頼度の高いサンプルを可視化することで明確な質的差異を示す。
最後に, 蒸留中の非マックスロジット情報を操作し, 生徒の頑健性への影響を計測することにより, 不正確な授業に関する情報を学習する。
以上の結果から,入力摂動を伴わない対角的頑健さの学習には,複雑な分布に従う特定の標本的信頼度と不正なクラス順序を学習するモデルが必要であることが示唆された。
関連論文リスト
- Adversarial Training Can Provably Improve Robustness: Theoretical Analysis of Feature Learning Process Under Structured Data [38.44734564565478]
本稿では, 特徴学習理論の観点から, 対角的例と対角的学習アルゴリズムの理論的理解を提供する。
本手法は,頑健な特徴学習を効果的に強化し,非ロバストな特徴学習を抑えることができることを示す。
論文 参考訳(メタデータ) (2024-10-11T03:59:49Z) - MOREL: Enhancing Adversarial Robustness through Multi-Objective Representation Learning [1.534667887016089]
ディープニューラルネットワーク(DNN)は、わずかに敵対的な摂動に対して脆弱である。
トレーニング中の強力な特徴表現学習は、元のモデルの堅牢性を大幅に向上させることができることを示す。
本稿では,多目的特徴表現学習手法であるMORELを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:05:03Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - Bayesian Learning with Information Gain Provably Bounds Risk for a
Robust Adversarial Defense [27.545466364906773]
敵攻撃に対して堅牢なディープニューラルネットワークモデルを学習するための新しいアルゴリズムを提案する。
本モデルでは, PGD 攻撃下での対人訓練と Adv-BNN との比較により, 強靭性は20%まで向上した。
論文 参考訳(メタデータ) (2022-12-05T03:26:08Z) - Addressing Mistake Severity in Neural Networks with Semantic Knowledge [0.0]
ほとんどの堅牢なトレーニング技術は、摂動入力のモデル精度を改善することを目的としている。
強靭性の代替形態として、ニューラルネットワークが挑戦的な状況で犯した誤りの深刻度を低減することを目的としている。
我々は、現在の対人訓練手法を活用して、トレーニングプロセス中に標的の対人攻撃を発生させる。
その結果,本手法は,標準モデルや逆トレーニングモデルと比較して,誤り重大性に対して優れた性能を示した。
論文 参考訳(メタデータ) (2022-11-21T22:01:36Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z) - Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文 参考訳(メタデータ) (2022-09-14T21:09:34Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z) - Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。
本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。
ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T08:24:33Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。