論文の概要: Why Clean Generalization and Robust Overfitting Both Happen in
Adversarial Training
- arxiv url: http://arxiv.org/abs/2306.01271v1
- Date: Fri, 2 Jun 2023 05:07:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 16:43:53.585070
- Title: Why Clean Generalization and Robust Overfitting Both Happen in
Adversarial Training
- Title(参考訳): 対人訓練におけるクリーンな一般化とロバストオーバーフィッティングの理由
- Authors: Binghui Li, Yuanzhi Li
- Abstract要約: 敵対的トレーニングは、敵対的摂動に対して堅牢であるようにディープニューラルネットワークを訓練する標準的な方法である。
本稿では,このCGRO現象の理論的理解について述べる。
我々の実験に触発されて、損失景観の$textitglobal flatness$に基づいて、ロバストな一般化を証明した。
- 参考スコア(独自算出の注目度): 34.91089650516183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial training is a standard method to train deep neural networks to be
robust to adversarial perturbation. Similar to surprising $\textit{clean
generalization}$ ability in the standard deep learning setting, neural networks
trained by adversarial training also generalize well for $\textit{unseen clean
data}$. However, in constrast with clean generalization, while adversarial
training method is able to achieve low $\textit{robust training error}$, there
still exists a significant $\textit{robust generalization gap}$, which promotes
us exploring what mechanism leads to both $\textit{clean generalization and
robust overfitting (CGRO)}$ during learning process. In this paper, we provide
a theoretical understanding of this CGRO phenomenon in adversarial training.
First, we propose a theoretical framework of adversarial training, where we
analyze $\textit{feature learning process}$ to explain how adversarial training
leads network learner to CGRO regime. Specifically, we prove that, under our
patch-structured dataset, the CNN model provably partially learns the true
feature but exactly memorizes the spurious features from training-adversarial
examples, which thus results in clean generalization and robust overfitting.
For more general data assumption, we then show the efficiency of CGRO
classifier from the perspective of $\textit{representation complexity}$. On the
empirical side, to verify our theoretical analysis in real-world vision
dataset, we investigate the $\textit{dynamics of loss landscape}$ during
training. Moreover, inspired by our experiments, we prove a robust
generalization bound based on $\textit{global flatness}$ of loss landscape,
which may be an independent interest.
- Abstract(参考訳): 敵意トレーニング(adversarial training)は、敵意の摂動にロバストな深層ニューラルネットワークを訓練する標準的な方法である。
通常のディープラーニング環境での驚くべき$\textit{clean generalization}$能力と同様に、敵のトレーニングによって訓練されたニューラルネットワークも$\textit{unseen clean data}$で一般化している。
しかし、クリーンな一般化と対比して、逆トレーニング法が低い$\textit{robust training error}$を達成できる一方で、学習プロセス中に、どのようなメカニズムが$\textit{clean generalizationとロバストオーバーフィッティング(CGRO)の両方に繋がるかを探るための重要な$\textit{robust generalization gap}$が存在する。
本稿では,このCGRO現象の理論的理解について述べる。
まず,adversarial trainingの理論的枠組みを提案する。ここでは$\textit{feature learning process}$を分析し,ネットワーク学習者をcgroレジームへと導く方法を説明する。
具体的には、パッチ構造データセットの下では、CNNモデルは真の特徴を部分的に学習するが、トレーニング・アドバイザリの例から突発的な特徴を正確に記憶するので、明確な一般化と堅牢なオーバーフィッティングをもたらすことを証明している。
より一般的なデータ仮定については、$\textit{representation complexity}$の観点からCGRO分類器の効率を示す。
実世界の視覚データセットにおける理論的解析を実証的に検証するために, 学習中は$\textit{dynamics of Los landscape}$について検討する。
さらに、我々の実験から着想を得た結果、$\textit{global flatness}$ of loss landscape に基づいた堅牢な一般化が証明された。
関連論文リスト
- IT$^3$: Idempotent Test-Time Training [95.78053599609044]
本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training (IT$3$)を紹介する。
IT$3$は、イデオロジェンスの普遍性に基づいている。
画像分類の劣化など,様々なタスクにまたがるアプローチの汎用性を実証する。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
この作業では、3つの重要な$textitO$bstacleを識別する: 包括的な評価の欠如、(textitO$2) スケーリングのためのテストされていない生存性、(textitO$3) 経験的ガイドラインの欠如。
G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-05-24T08:00:00Z) - Maximal Initial Learning Rates in Deep ReLU Networks [32.157430904535126]
最大初等学習率$etaast$を導入する。
定幅完全接続型ReLUネットワークでは,学習後の最大学習率とは,$etaast$が異なる動作を示す。
論文 参考訳(メタデータ) (2022-12-14T15:58:37Z) - Supervised Contrastive Prototype Learning: Augmentation Free Robust
Neural Network [17.10753224600936]
ディープニューラルネットワーク(DNN)の入力空間における変換は、特徴空間の意図しない変化をもたらす。
我々は、SCPL (textbfd Contrastive Prototype Learning$) というトレーニングフレームワークを提案する。
同じクラスと反対クラスのプロトタイプでNペアの対照的な損失を使用し、分類ヘッドを$textbfPrototype Classification Head(PCH)で置き換える。
私たちのアプローチは、$textitsample efficient$、$textitsample mining$、既存のどのDNNでも変更せずに実装できます。
論文 参考訳(メタデータ) (2022-11-26T01:17:15Z) - Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - Training \beta-VAE by Aggregating a Learned Gaussian Posterior with a
Decoupled Decoder [0.553073476964056]
VAEトレーニングの現在の実践は、しばしば、再構成の忠実さと、潜伏空間の連続性$/$$分散の間のトレードオフをもたらす。
本稿では,2つの損失の対角的機構の直観と注意深い解析を行い,VAEを訓練するための簡易で効果的な2段階法を提案する。
本手法は, 3次元頭蓋骨再建と形状完成を目的とした医療データセットを用いて評価し, 提案手法を用いてトレーニングしたVAEの有望な生成能力を示す。
論文 参考訳(メタデータ) (2022-09-29T13:49:57Z) - Blessing of Class Diversity in Pre-training [54.335530406959435]
事前学習タスクのクラスが十分に多種多様である場合、事前学習は下流タスクのサンプル効率を大幅に向上させることができることを示す。
我々の証明は、合成関数クラスに対するベクトル形式ラデマッハ複雑性連鎖則と修正自己調和条件に依存している。
論文 参考訳(メタデータ) (2022-09-07T20:10:12Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Provable Robustness of Adversarial Training for Learning Halfspaces with
Noise [95.84614821570283]
ラベル雑音の存在下での敵対的ロバストなハーフスペースの特性を分析する。
我々の知る限りでは、これは敵の訓練がノイズの分類子を与えることを示す最初の研究である。
論文 参考訳(メタデータ) (2021-04-19T16:35:38Z) - Towards Deep Learning Models Resistant to Large Perturbations [0.0]
敵対的堅牢性は、機械学習アルゴリズムの必須特性であることが証明されている。
とよばれるアルゴリズムは、大きくても合理的で摂動のマグニチュードが与えられたディープニューラルネットワークのトレーニングに失敗することを示した。
論文 参考訳(メタデータ) (2020-03-30T12:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。