論文の概要: Towards Understanding Neural Collapse: The Effects of Batch
Normalization and Weight Decay
- arxiv url: http://arxiv.org/abs/2309.04644v1
- Date: Sat, 9 Sep 2023 00:05:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 17:16:18.580340
- Title: Towards Understanding Neural Collapse: The Effects of Batch
Normalization and Weight Decay
- Title(参考訳): 神経崩壊の理解に向けて:バッチ正規化と体重減少の影響
- Authors: Leyan Pan, Xinyuan Cao
- Abstract要約: 本稿では, バッチ正規化と重み劣化がニューラル崩壊の発生に及ぼす影響について検討する。
ニューラル・コラプスの複数のコア面を捉えた幾何学的直感的なクラス内およびクラス間コサイン類似度尺度を提案する。
- 参考スコア(独自算出の注目度): 0.8049750230212122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Collapse is a recently observed geometric structure that emerges in
the final layer of neural network classifiers. Specifically, Neural Collapse
states that at the terminal phase of neural networks training, 1) the
intra-class variability of last-layer features tends to zero, 2) the class
feature means form an Equiangular Tight Frame (ETF), 3) last-layer class
features and weights becomes equal up the scaling, and 4) classification
behavior collapses to the nearest class center (NCC) decision rule. This paper
investigates the effect of batch normalization and weight decay on the
emergence of Neural Collapse. We propose the geometrically intuitive
intra-class and inter-class cosine similarity measure which captures multiple
core aspects of Neural Collapse. With this measure, we provide theoretical
guarantees of Neural Collapse emergence with last-layer batch normalization and
weight decay when the regularized cross-entropy loss is near optimal. We also
perform further experiments to show that the Neural Collapse is most
significant in models with batch normalization and high weight-decay values.
Collectively, our results imply that batch normalization and weight decay may
be fundamental factors in the emergence of Neural Collapse.
- Abstract(参考訳): ニューラルネットワークの崩壊は、ニューラルネットワーク分類器の最終層で最近観測された幾何学的構造である。
特に、Neural Collapseは、ニューラルネットワークトレーニングの最終フェーズで、と述べている。
1) 最終層の特徴のクラス内変動はゼロとなる傾向にある。
2) クラス特徴手段は,等角的タイトフレーム(ETF)を形成する。
3)最後の階層のクラスの特徴と重みがスケーリングに等しくなり、
4) 分類行動は最寄りのクラスセンター決定規則(NCC)に崩壊する。
本稿では,集合正規化と体重減少が神経崩壊の発生に及ぼす影響について検討する。
本稿では,ニューラル・コラプスの多面的側面を捉えた幾何学的直感的なクラス内およびクラス間コサイン類似度尺度を提案する。
この測定により、正則化されたクロスエントロピー損失が最適に近い場合、最終層バッチ正規化と重み劣化を伴うニューラルネットワーク崩壊の理論的保証を提供する。
また, バッチ正規化と重み付け値の高いモデルにおいて, 神経崩壊が最も重要であることを示す実験を行った。
総じて, バッチ正規化と体重減少は神経崩壊の発生の基本的な要因である可能性が示唆された。
関連論文リスト
- Towards Demystifying the Generalization Behaviors When Neural Collapse
Emerges [132.62934175555145]
Neural Collapse(NC)は、トレーニング末期(TPT)におけるディープニューラルネットワークのよく知られた現象である
本稿では,列車の精度が100%に達した後も,継続訓練がテストセットの精度向上に繋がる理由を理論的に説明する。
我々はこの新たに発見された性質を「非保守的一般化」と呼ぶ。
論文 参考訳(メタデータ) (2023-10-12T14:29:02Z) - Neural (Tangent Kernel) Collapse [41.273479684974234]
この研究は、ニューラル・タンジェント・カーネル(NTK)とニューラル・コラプス(NC)という2つの重要な概念を橋渡しする。
平均二乗損失(MSE)で訓練されたDNNの力学を導出し,それらを解釈可能な位相に分解する。
我々は,DNNにおけるNCの出現をブロック構造NTKで証明するために,ダイナミクスの本質を捉える不変量を用いている。
論文 参考訳(メタデータ) (2023-05-25T18:56:34Z) - Deep Neural Collapse Is Provably Optimal for the Deep Unconstrained
Features Model [21.79259092920587]
深い制約のない特徴モデルにおいて、二分分類のための一意な大域的最適化は、ディープ・ニューラル・崩壊(DNC)に典型的なすべての特性を示すことを示す。
また, (i) 深部非拘束特徴モデルを勾配降下法により最適化することにより, 得られた解は我々の理論とよく一致し, (ii) 訓練されたネットワークはDNCに適した非拘束特徴を回復することを示した。
論文 参考訳(メタデータ) (2023-05-22T15:51:28Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Collapse in Deep Linear Networks: From Balanced to Imbalanced
Data [12.225207401994737]
大量のパラメータを持つ複雑な系は、収束するまでのトレーニングで同じ構造を持つことを示す。
特に、最終層の特徴がクラス平均に崩壊することが観察されている。
本結果は,最終層の特徴と分類器をベクトルからなる幾何学へ収束させることを示す。
論文 参考訳(メタデータ) (2023-01-01T16:29:56Z) - Extended Unconstrained Features Model for Exploring Deep Neural Collapse [59.59039125375527]
近年、ディープニューラルネットワークで「神経崩壊」(NC)と呼ばれる現象が経験的に観察されている。
最近の論文は、単純化された「制約なし特徴モデル」を最適化する際に、この構造を持つ最小化器が出現することを示している。
本稿では, 正規化MSE損失に対するUDFについて検討し, クロスエントロピーの場合よりも最小化器の特徴がより構造化可能であることを示す。
論文 参考訳(メタデータ) (2022-02-16T14:17:37Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - Formalizing Generalization and Robustness of Neural Networks to Weight
Perturbations [58.731070632586594]
非負のモノトーンアクティベーション機能を備えたフィードフォワードニューラルネットワークの重量変動に対する最初の形式解析を提供します。
また,重みの摂動に対して一般化し頑健なニューラルネットワークを訓練するための新しい理論駆動損失関数を設計した。
論文 参考訳(メタデータ) (2021-03-03T06:17:03Z) - Explicit regularization and implicit bias in deep network classifiers
trained with the square loss [2.8935588665357077]
平方損失で訓練された深いReLUネットワークは分類の仕事でよく機能するために観察されました。
正規化法を重み決定法とともに用いる場合,絶対最小ノルムの解への収束が期待できることを示す。
論文 参考訳(メタデータ) (2020-12-31T21:07:56Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。