論文の概要: Deep Neural Collapse Is Provably Optimal for the Deep Unconstrained
Features Model
- arxiv url: http://arxiv.org/abs/2305.13165v1
- Date: Mon, 22 May 2023 15:51:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 14:47:57.262397
- Title: Deep Neural Collapse Is Provably Optimal for the Deep Unconstrained
Features Model
- Title(参考訳): 深部神経崩壊は、おそらく非拘束な機能モデルに最適である
- Authors: Peter S\'uken\'ik, Marco Mondelli, Christoph Lampert
- Abstract要約: 深い制約のない特徴モデルにおいて、二分分類のための一意な大域的最適化は、ディープ・ニューラル・崩壊(DNC)に典型的なすべての特性を示すことを示す。
また, (i) 深部非拘束特徴モデルを勾配降下法により最適化することにより, 得られた解は我々の理論とよく一致し, (ii) 訓練されたネットワークはDNCに適した非拘束特徴を回復することを示した。
- 参考スコア(独自算出の注目度): 21.79259092920587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural collapse (NC) refers to the surprising structure of the last layer of
deep neural networks in the terminal phase of gradient descent training.
Recently, an increasing amount of experimental evidence has pointed to the
propagation of NC to earlier layers of neural networks. However, while the NC
in the last layer is well studied theoretically, much less is known about its
multi-layered counterpart - deep neural collapse (DNC). In particular, existing
work focuses either on linear layers or only on the last two layers at the
price of an extra assumption. Our paper fills this gap by generalizing the
established analytical framework for NC - the unconstrained features model - to
multiple non-linear layers. Our key technical contribution is to show that, in
a deep unconstrained features model, the unique global optimum for binary
classification exhibits all the properties typical of DNC. This explains the
existing experimental evidence of DNC. We also empirically show that (i) by
optimizing deep unconstrained features models via gradient descent, the
resulting solution agrees well with our theory, and (ii) trained networks
recover the unconstrained features suitable for the occurrence of DNC, thus
supporting the validity of this modeling principle.
- Abstract(参考訳): ニューラル崩壊(Neural collapse, NC)とは、勾配降下訓練の最終段階におけるディープニューラルネットワークの最後の層が驚くべき構造である。
近年,ニューラルネットワークの初期層へのncの伝播が実験的に実証されている。
しかしながら、最後の層のNCは理論上はよく研究されているが、多層構造である深層神経崩壊(DNC)についてはあまり知られていない。
特に、既存の仕事は、余分な仮定の価格で、線形層か、最後の2つの層のみに焦点を当てています。
本論文は、nc(unconstrained features model)の確立した解析フレームワークを複数の非線形層に一般化することで、このギャップを埋めている。
我々の重要な技術的貢献は、unconstrained featuresモデルにおいて、バイナリ分類に特有のグローバル最適性がdncに典型的な全ての特性を示すことを示すことである。
これは既存のDNCの実験的な証拠を説明する。
実証的に示しているのは
(i)勾配降下による深部非拘束特徴モデルの最適化により、結果の解は我々の理論とよく一致し、
(II)訓練ネットワークは,DNCの発生に適した制約のない特徴を回復し,このモデリング原理の有効性を裏付ける。
関連論文リスト
- Supervised Contrastive Representation Learning: Landscape Analysis with
Unconstrained Features [33.703796571991745]
最近の研究では、ゼロトレーニングを超えて訓練された過度パラメータ化されたディープニューラルネットワークが、最終層に特徴的な構造パターンを示すことが明らかになっている。
これらの結果から,これらのネットワークにおける最終層出力はクラス内変動が最小限であることがわかった。
論文 参考訳(メタデータ) (2024-02-29T06:02:45Z) - Average gradient outer product as a mechanism for deep neural collapse [27.38167323187622]
Deep Neural Collapse (DNC)は、Deep Neural Networks (DNN)の最終層におけるデータ表現の驚くほど硬い構造を指す。
DNC生成は主に,平均勾配外積(AGOP)を用いた深層特徴学習を通じて起こることを示す重要な証拠を提供する。
そして、実験と理論的に、AGOPがランダムなニューラルネットワークで神経崩壊を引き起こすことを確立した。
論文 参考訳(メタデータ) (2024-02-21T11:40:27Z) - Towards Demystifying the Generalization Behaviors When Neural Collapse
Emerges [132.62934175555145]
Neural Collapse(NC)は、トレーニング末期(TPT)におけるディープニューラルネットワークのよく知られた現象である
本稿では,列車の精度が100%に達した後も,継続訓練がテストセットの精度向上に繋がる理由を理論的に説明する。
我々はこの新たに発見された性質を「非保守的一般化」と呼ぶ。
論文 参考訳(メタデータ) (2023-10-12T14:29:02Z) - Neural Collapse in Deep Linear Networks: From Balanced to Imbalanced
Data [12.225207401994737]
大量のパラメータを持つ複雑な系は、収束するまでのトレーニングで同じ構造を持つことを示す。
特に、最終層の特徴がクラス平均に崩壊することが観察されている。
本結果は,最終層の特徴と分類器をベクトルからなる幾何学へ収束させることを示す。
論文 参考訳(メタデータ) (2023-01-01T16:29:56Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Extended Unconstrained Features Model for Exploring Deep Neural Collapse [59.59039125375527]
近年、ディープニューラルネットワークで「神経崩壊」(NC)と呼ばれる現象が経験的に観察されている。
最近の論文は、単純化された「制約なし特徴モデル」を最適化する際に、この構造を持つ最小化器が出現することを示している。
本稿では, 正規化MSE損失に対するUDFについて検討し, クロスエントロピーの場合よりも最小化器の特徴がより構造化可能であることを示す。
論文 参考訳(メタデータ) (2022-02-16T14:17:37Z) - An Unconstrained Layer-Peeled Perspective on Neural Collapse [20.75423143311858]
非拘束層列モデル (ULPM) と呼ばれるサロゲートモデルを導入する。
このモデル上の勾配流は、その大域的最小化器における神経崩壊を示す最小ノルム分離問題の臨界点に収束することを示す。
また,本研究の結果は,実世界のタスクにおけるニューラルネットワークのトレーニングにおいて,明示的な正規化や重み劣化が使用されない場合にも有効であることを示す。
論文 参考訳(メタデータ) (2021-10-06T14:18:47Z) - Exploring Deep Neural Networks via Layer-Peeled Model: Minority Collapse
in Imbalanced Training [39.137793683411424]
解析的に抽出できない最適化プログラムである textitLayer-Peeled Model を導入する。
このモデルでは,よく訓練されたネットワークの特徴の多くを継承し,ディープラーニング学習の一般的な経験的パターンを説明・予測するための効果的なツールを提供する。
特に,本モデルでは,テキストマイノリティ崩壊(textitMinority Collapse)という,マイノリティクラスにおけるディープラーニングモデルの性能を根本的に制限する未知の現象が明らかにされている。
論文 参考訳(メタデータ) (2021-01-29T17:37:17Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of
DNNs [115.35745188028169]
条件付け解析を深層ニューラルネットワーク(DNN)に拡張し,その学習力学を解明する。
バッチ正規化(BN)はトレーニングを安定させるが、時には局所的な最小値の誤った印象を与える。
我々はBNが最適化問題の階層的条件付けを改善することを実験的に観察した。
論文 参考訳(メタデータ) (2020-02-25T11:40:27Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。