論文の概要: Local Linearity and Double Descent in Catastrophic Overfitting
- arxiv url: http://arxiv.org/abs/2111.10754v1
- Date: Sun, 21 Nov 2021 07:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 16:07:47.629058
- Title: Local Linearity and Double Descent in Catastrophic Overfitting
- Title(参考訳): カタストロフィックオーバーフィッティングにおける局所リニアリティと二重発色
- Authors: Varun Sivashankar and Nikil Selvam
- Abstract要約: カタストロフィックオーバーフィッティングは、FGSM(Fast Gradient Sign Method)を用いた逆行訓練(AT)中に観察される現象である。
局所的な線形性を維持することは破滅的なオーバーフィッティングを防ぐために$textitsufficient$であるが、$textitnecessaryではない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Catastrophic overfitting is a phenomenon observed during Adversarial Training
(AT) with the Fast Gradient Sign Method (FGSM) where the test robustness
steeply declines over just one epoch in the training stage. Prior work has
attributed this loss in robustness to a sharp decrease in $\textit{local
linearity}$ of the neural network with respect to the input space, and has
demonstrated that introducing a local linearity measure as a regularization
term prevents catastrophic overfitting. Using a simple neural network
architecture, we experimentally demonstrate that maintaining high local
linearity might be $\textit{sufficient}$ to prevent catastrophic overfitting
but is not $\textit{necessary.}$ Further, inspired by Parseval networks, we
introduce a regularization term to AT with FGSM to make the weight matrices of
the network orthogonal and study the connection between orthogonality of the
network weights and local linearity. Lastly, we identify the $\textit{double
descent}$ phenomenon during the adversarial training process.
- Abstract(参考訳): カタストロフィックオーバーフィッティング(英: Catastrophic Overfitting)は、FGSM(Fast Gradient Sign Method)によるAT(Adversarial Training)において観察される現象であり、テストの堅牢性はトレーニング段階では1つのエポックよりも急激に低下する。
以前の研究では、ロバスト性の喪失は入力空間に対するニューラルネットワークの$\textit{local linearity}$の急激な減少に起因しており、正規化項として局所線形測度を導入すると破滅的な過剰フィッティングを防ぐことが示されている。
単純なニューラルネットワークアーキテクチャを用いて、破滅的なオーバーフィッティングを防ぐために、高い局所線形性を維持することは、$\textit{sufficient}$であり、$\textit{necessaryではないことを実験的に実証した。
さらに、我々は、ネットワークの重み行列を直交させ、ネットワークの重みの直交性と局所線型性の間の接続を研究するために、FGSMを用いたATに正規化項を導入する。
最後に,逆行訓練過程における$\textit{double descend}$現象を同定する。
関連論文リスト
- Grokking as the Transition from Lazy to Rich Training Dynamics [35.186196991224286]
グルーキングは、ニューラルネットワークの列車の損失がテスト損失よりもはるかに早く減少するときに起こる。
グルーキングの主要な要因は、特徴学習の速度と、初期特徴と対象関数とのアライメントである。
論文 参考訳(メタデータ) (2023-10-09T19:33:21Z) - Adversarial Examples Exist in Two-Layer ReLU Networks for Low
Dimensional Linear Subspaces [24.43191276129614]
標準手法が非ロバストニューラルネットワークに繋がることを示す。
トレーニングアルゴリズムのスケールを縮小させるか、あるいは$L$正規化を加えることで、トレーニングされたネットワークが敵の摂動に対してより堅牢になることを示す。
論文 参考訳(メタデータ) (2023-03-01T19:10:05Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Benign Overfitting in Two-layer Convolutional Neural Networks [90.75603889605043]
2層畳み込みニューラルネットワーク(CNN)の訓練における良性過剰適合現象の検討
信号対雑音比が一定の条件を満たすと、勾配降下により訓練された2層CNNが任意に小さな訓練と試験損失を達成できることを示す。
一方、この条件が保たない場合、オーバーフィッティングは有害となり、得られたCNNは一定レベルのテスト損失しか達成できない。
論文 参考訳(メタデータ) (2022-02-14T07:45:51Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - Robustness Certificates for Implicit Neural Networks: A Mixed Monotone
Contractive Approach [60.67748036747221]
暗黙のニューラルネットワークは、競合性能とメモリ消費の削減を提供する。
入力逆流の摂動に関して、それらは不安定なままである。
本稿では,暗黙的ニューラルネットワークのロバスト性検証のための理論的および計算的枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-10T03:08:55Z) - DL-Reg: A Deep Learning Regularization Technique using Linear Regression [4.1359299555083595]
本稿では,DL-Regと呼ばれる新しいディープラーニング正規化手法を提案する。
ネットワークをできるだけ線形に振る舞うように明示的に強制することで、ディープネットワークの非線形性をある程度まで慎重に減少させる。
DL-Regの性能は、いくつかのベンチマークデータセット上で最先端のディープネットワークモデルをトレーニングすることで評価される。
論文 参考訳(メタデータ) (2020-10-31T21:53:24Z) - A Unifying View on Implicit Bias in Training Linear Neural Networks [31.65006970108761]
線形ニューラルネットワークトレーニングにおける勾配流(無限小ステップサイズの勾配勾配勾配勾配)の暗黙バイアスについて検討する。
本稿では, ニューラルネットワークのテンソルの定式化について検討し, 完全連結型, 対角型, 畳み込み型ネットワークを特殊な場合として提案する。
論文 参考訳(メタデータ) (2020-10-06T06:08:35Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。