論文の概要: On the Optimization Landscape of Neural Collapse under MSE Loss: Global
Optimality with Unconstrained Features
- arxiv url: http://arxiv.org/abs/2203.01238v1
- Date: Wed, 2 Mar 2022 17:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 13:30:37.591993
- Title: On the Optimization Landscape of Neural Collapse under MSE Loss: Global
Optimality with Unconstrained Features
- Title(参考訳): MSE損失下におけるニューラル崩壊の最適化景観について:制約のない特徴を持つ大域的最適性
- Authors: Jinxin Zhou, Xiao Li, Tianyu Ding, Chong You, Qing Qu and Zhihui Zhu
- Abstract要約: 簡易等角密閉フレーム(ETF)の頂点に崩壊する崩壊層
興味深い経験的現象が、タスクのためのディープニューラルネットワークの最後の層と特徴で広く観測されている。
- 参考スコア(独自算出の注目度): 38.05002597295796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When training deep neural networks for classification tasks, an intriguing
empirical phenomenon has been widely observed in the last-layer classifiers and
features, where (i) the class means and the last-layer classifiers all collapse
to the vertices of a Simplex Equiangular Tight Frame (ETF) up to scaling, and
(ii) cross-example within-class variability of last-layer activations collapses
to zero. This phenomenon is called Neural Collapse (NC), which seems to take
place regardless of the choice of loss functions. In this work, we justify NC
under the mean squared error (MSE) loss, where recent empirical evidence shows
that it performs comparably or even better than the de-facto cross-entropy
loss. Under a simplified unconstrained feature model, we provide the first
global landscape analysis for vanilla nonconvex MSE loss and show that the
(only!) global minimizers are neural collapse solutions, while all other
critical points are strict saddles whose Hessian exhibit negative curvature
directions. Furthermore, we justify the usage of rescaled MSE loss by probing
the optimization landscape around the NC solutions, showing that the landscape
can be improved by tuning the rescaling hyperparameters. Finally, our
theoretical findings are experimentally verified on practical network
architectures.
- Abstract(参考訳): 分類タスクのためのディープニューラルネットワークのトレーニングでは、ラスト層分類器や特徴において興味深い経験的現象が広く観測されている。
i) クラス手段と最終層分類器は、すべて、スケーリングまで単純な等角的密閉フレーム(ETF)の頂点に崩壊し、
(ii) 最終層活性化のクラス内変動が0に崩壊する。
この現象は神経崩壊(neural collapse, nc)と呼ばれ、損失関数の選択に関係なく起こるように見える。
本研究では、NCを平均二乗誤差(MSE)損失下で正当化し、近年の実証的証拠は、デファクトのクロスエントロピー損失よりも可逆的あるいはそれ以上に機能することを示している。
単純化された非拘束的特徴モデルの下で、バニラ非凸MSE損失に対する最初のグローバルランドスケープ解析を行い、(ただ!)大域最小化器は神経崩壊解であり、他のすべての臨界点はヘッセンが負の曲率方向を示す厳密なサドルであることを示す。
さらに,ncソリューション周辺の最適化景観を探索することにより,再スケールされたmse損失の利用を正当化し,再スケーリングハイパーパラメータをチューニングすることで景観を改善することができることを示した。
最後に,本理論は実用的ネットワークアーキテクチャ上で実験的に検証される。
関連論文リスト
- Supervised Contrastive Representation Learning: Landscape Analysis with
Unconstrained Features [33.703796571991745]
最近の研究では、ゼロトレーニングを超えて訓練された過度パラメータ化されたディープニューラルネットワークが、最終層に特徴的な構造パターンを示すことが明らかになっている。
これらの結果から,これらのネットワークにおける最終層出力はクラス内変動が最小限であることがわかった。
論文 参考訳(メタデータ) (2024-02-29T06:02:45Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Are All Losses Created Equal: A Neural Collapse Perspective [36.0354919583995]
クロスエントロピー(CE)は、分類タスクのためにディープニューラルネットワークを訓練する最も一般的な損失である。
本研究では,一般的に使用されているラベルスムーシング (LS) や焦点損失 (FL) を含む広い範囲の損失関数がニューラル・コラプスを示すことを,グローバル・ソリューションとランドスケープ・アナリティクスを通じて示す。
論文 参考訳(メタデータ) (2022-10-04T00:36:45Z) - Neural Collapse with Normalized Features: A Geometric Analysis over the
Riemannian Manifold [30.3185037354742]
分類タスクのための正規化されたディープネットワーク上でのトレーニングでは、学習された特徴はいわゆる「神経崩壊」現象を示す。
特徴正規化により、より良い表現をより早く学習できることが示される。
論文 参考訳(メタデータ) (2022-09-19T17:26:32Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - Extended Unconstrained Features Model for Exploring Deep Neural Collapse [59.59039125375527]
近年、ディープニューラルネットワークで「神経崩壊」(NC)と呼ばれる現象が経験的に観察されている。
最近の論文は、単純化された「制約なし特徴モデル」を最適化する際に、この構造を持つ最小化器が出現することを示している。
本稿では, 正規化MSE損失に対するUDFについて検討し, クロスエントロピーの場合よりも最小化器の特徴がより構造化可能であることを示す。
論文 参考訳(メタデータ) (2022-02-16T14:17:37Z) - An Unconstrained Layer-Peeled Perspective on Neural Collapse [20.75423143311858]
非拘束層列モデル (ULPM) と呼ばれるサロゲートモデルを導入する。
このモデル上の勾配流は、その大域的最小化器における神経崩壊を示す最小ノルム分離問題の臨界点に収束することを示す。
また,本研究の結果は,実世界のタスクにおけるニューラルネットワークのトレーニングにおいて,明示的な正規化や重み劣化が使用されない場合にも有効であることを示す。
論文 参考訳(メタデータ) (2021-10-06T14:18:47Z) - A Geometric Analysis of Neural Collapse with Unconstrained Features [40.66585948844492]
Neural;Collapse$の最初のグローバル最適化ランドスケープ分析を提供します。
この現象は、トレーニングの終末期におけるニューラルネットワークのラスト層分類器と特徴に現れる。
論文 参考訳(メタデータ) (2021-05-06T00:00:50Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。