論文の概要: Deep Neural Collapse Is Provably Optimal for the Deep Unconstrained
Features Model
- arxiv url: http://arxiv.org/abs/2305.13165v1
- Date: Mon, 22 May 2023 15:51:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 14:47:57.262397
- Title: Deep Neural Collapse Is Provably Optimal for the Deep Unconstrained
Features Model
- Title(参考訳): 深部神経崩壊は、おそらく非拘束な機能モデルに最適である
- Authors: Peter S\'uken\'ik, Marco Mondelli, Christoph Lampert
- Abstract要約: 深い制約のない特徴モデルにおいて、二分分類のための一意な大域的最適化は、ディープ・ニューラル・崩壊(DNC)に典型的なすべての特性を示すことを示す。
また, (i) 深部非拘束特徴モデルを勾配降下法により最適化することにより, 得られた解は我々の理論とよく一致し, (ii) 訓練されたネットワークはDNCに適した非拘束特徴を回復することを示した。
- 参考スコア(独自算出の注目度): 21.79259092920587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural collapse (NC) refers to the surprising structure of the last layer of
deep neural networks in the terminal phase of gradient descent training.
Recently, an increasing amount of experimental evidence has pointed to the
propagation of NC to earlier layers of neural networks. However, while the NC
in the last layer is well studied theoretically, much less is known about its
multi-layered counterpart - deep neural collapse (DNC). In particular, existing
work focuses either on linear layers or only on the last two layers at the
price of an extra assumption. Our paper fills this gap by generalizing the
established analytical framework for NC - the unconstrained features model - to
multiple non-linear layers. Our key technical contribution is to show that, in
a deep unconstrained features model, the unique global optimum for binary
classification exhibits all the properties typical of DNC. This explains the
existing experimental evidence of DNC. We also empirically show that (i) by
optimizing deep unconstrained features models via gradient descent, the
resulting solution agrees well with our theory, and (ii) trained networks
recover the unconstrained features suitable for the occurrence of DNC, thus
supporting the validity of this modeling principle.
- Abstract(参考訳): ニューラル崩壊(Neural collapse, NC)とは、勾配降下訓練の最終段階におけるディープニューラルネットワークの最後の層が驚くべき構造である。
近年,ニューラルネットワークの初期層へのncの伝播が実験的に実証されている。
しかしながら、最後の層のNCは理論上はよく研究されているが、多層構造である深層神経崩壊(DNC)についてはあまり知られていない。
特に、既存の仕事は、余分な仮定の価格で、線形層か、最後の2つの層のみに焦点を当てています。
本論文は、nc(unconstrained features model)の確立した解析フレームワークを複数の非線形層に一般化することで、このギャップを埋めている。
我々の重要な技術的貢献は、unconstrained featuresモデルにおいて、バイナリ分類に特有のグローバル最適性がdncに典型的な全ての特性を示すことを示すことである。
これは既存のDNCの実験的な証拠を説明する。
実証的に示しているのは
(i)勾配降下による深部非拘束特徴モデルの最適化により、結果の解は我々の理論とよく一致し、
(II)訓練ネットワークは,DNCの発生に適した制約のない特徴を回復し,このモデリング原理の有効性を裏付ける。
関連論文リスト
- Neural Collapse versus Low-rank Bias: Is Deep Neural Collapse Really Optimal? [21.05674840609307]
ディープニューラルネットワーク(DNN)は、ニューラル崩壊(NC)と呼ばれる最終層に驚くべき構造を示す
多クラス分類において、任意の深さの非線形モデルに焦点をあて、驚くべき定性的シフトを明らかにする。
主な原因は、多層正規化スキームの低ランクバイアスである。
論文 参考訳(メタデータ) (2024-05-23T11:55:49Z) - Supervised Contrastive Representation Learning: Landscape Analysis with
Unconstrained Features [33.703796571991745]
最近の研究では、ゼロトレーニングを超えて訓練された過度パラメータ化されたディープニューラルネットワークが、最終層に特徴的な構造パターンを示すことが明らかになっている。
これらの結果から,これらのネットワークにおける最終層出力はクラス内変動が最小限であることがわかった。
論文 参考訳(メタデータ) (2024-02-29T06:02:45Z) - Towards Demystifying the Generalization Behaviors When Neural Collapse
Emerges [132.62934175555145]
Neural Collapse(NC)は、トレーニング末期(TPT)におけるディープニューラルネットワークのよく知られた現象である
本稿では,列車の精度が100%に達した後も,継続訓練がテストセットの精度向上に繋がる理由を理論的に説明する。
我々はこの新たに発見された性質を「非保守的一般化」と呼ぶ。
論文 参考訳(メタデータ) (2023-10-12T14:29:02Z) - Towards Understanding Neural Collapse: The Effects of Batch Normalization and Weight Decay [0.6813925418351435]
ニューラル・コラプス(Neural Collapse, NC)は、深層ニューラルネットワークの終端で最近観測された幾何学的構造である。
我々は,バッチ正規化(BN)と重量減衰(WD)がNCの出現に重大な影響を及ぼすことを示した。
実験では, モデルがBN, 適切なWD値, 損失の低減, 最終層特徴ノルムの低下により, NCの存在感が強くなることを示した。
論文 参考訳(メタデータ) (2023-09-09T00:05:45Z) - Neural Collapse in Deep Linear Networks: From Balanced to Imbalanced
Data [12.225207401994737]
大量のパラメータを持つ複雑な系は、収束するまでのトレーニングで同じ構造を持つことを示す。
特に、最終層の特徴がクラス平均に崩壊することが観察されている。
本結果は,最終層の特徴と分類器をベクトルからなる幾何学へ収束させることを示す。
論文 参考訳(メタデータ) (2023-01-01T16:29:56Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Extended Unconstrained Features Model for Exploring Deep Neural Collapse [59.59039125375527]
近年、ディープニューラルネットワークで「神経崩壊」(NC)と呼ばれる現象が経験的に観察されている。
最近の論文は、単純化された「制約なし特徴モデル」を最適化する際に、この構造を持つ最小化器が出現することを示している。
本稿では, 正規化MSE損失に対するUDFについて検討し, クロスエントロピーの場合よりも最小化器の特徴がより構造化可能であることを示す。
論文 参考訳(メタデータ) (2022-02-16T14:17:37Z) - An Unconstrained Layer-Peeled Perspective on Neural Collapse [20.75423143311858]
非拘束層列モデル (ULPM) と呼ばれるサロゲートモデルを導入する。
このモデル上の勾配流は、その大域的最小化器における神経崩壊を示す最小ノルム分離問題の臨界点に収束することを示す。
また,本研究の結果は,実世界のタスクにおけるニューラルネットワークのトレーニングにおいて,明示的な正規化や重み劣化が使用されない場合にも有効であることを示す。
論文 参考訳(メタデータ) (2021-10-06T14:18:47Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of
DNNs [115.35745188028169]
条件付け解析を深層ニューラルネットワーク(DNN)に拡張し,その学習力学を解明する。
バッチ正規化(BN)はトレーニングを安定させるが、時には局所的な最小値の誤った印象を与える。
我々はBNが最適化問題の階層的条件付けを改善することを実験的に観察した。
論文 参考訳(メタデータ) (2020-02-25T11:40:27Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。