論文の概要: An Unconstrained Layer-Peeled Perspective on Neural Collapse
- arxiv url: http://arxiv.org/abs/2110.02796v1
- Date: Wed, 6 Oct 2021 14:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:39:27.351128
- Title: An Unconstrained Layer-Peeled Perspective on Neural Collapse
- Title(参考訳): 神経崩壊の非拘束層論的展望
- Authors: Wenlong Ji, Yiping Lu, Yiliang Zhang, Zhun Deng, Weijie J. Su
- Abstract要約: 非拘束層列モデル (ULPM) と呼ばれるサロゲートモデルを導入する。
このモデル上の勾配流は、その大域的最小化器における神経崩壊を示す最小ノルム分離問題の臨界点に収束することを示す。
また,本研究の結果は,実世界のタスクにおけるニューラルネットワークのトレーニングにおいて,明示的な正規化や重み劣化が使用されない場合にも有効であることを示す。
- 参考スコア(独自算出の注目度): 20.75423143311858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural collapse is a highly symmetric geometric pattern of neural networks
that emerges during the terminal phase of training, with profound implications
on the generalization performance and robustness of the trained networks. To
understand how the last-layer features and classifiers exhibit this recently
discovered implicit bias, in this paper, we introduce a surrogate model called
the unconstrained layer-peeled model (ULPM). We prove that gradient flow on
this model converges to critical points of a minimum-norm separation problem
exhibiting neural collapse in its global minimizer. Moreover, we show that the
ULPM with the cross-entropy loss has a benign global landscape for its loss
function, which allows us to prove that all the critical points are strict
saddle points except the global minimizers that exhibit the neural collapse
phenomenon. Empirically, we show that our results also hold during the training
of neural networks in real-world tasks when explicit regularization or weight
decay is not used.
- Abstract(参考訳): 神経崩壊(neural collapse)は、トレーニングの終盤に出現する高度に対称なニューラルネットワークの幾何学的パターンであり、トレーニングされたネットワークの一般化性能と堅牢性に大きな影響を与える。
本稿では、最近発見された暗黙のバイアスを示す最終層の特徴と分類器を理解するために、非拘束層ペアモデル(ULPM)と呼ばれる代理モデルを導入する。
このモデル上の勾配流は、大域的最小値において神経崩壊を示す最小ノルム分離問題の臨界点に収束する。
さらに, 交差エントロピー損失を持つULPMは, 損失関数の良質なグローバルな景観を有しており, 神経崩壊現象を示す大域最小化器を除いて, 全ての臨界点が厳密なサドル点であることを証明することができる。
実世界のタスクにおけるニューラルネットワークのトレーニングにおいて、明示的な正規化や重み劣化が使用されない場合にも、実験結果が有効であることを示す。
関連論文リスト
- The Persistence of Neural Collapse Despite Low-Rank Bias: An Analytic Perspective Through Unconstrained Features [0.0]
ディープニューラルネットワークは最終層の特徴と重みにおいて単純な構造を示し、一般に神経崩壊と呼ばれる。
最近の知見は、そのような構造は、深い制約のない特徴モデルでは一般的に最適ではないことを示している。
これは正則化によって引き起こされる低ランクバイアスによるもので、これは一般的に深い神経崩壊に関連するものよりも低いランクの解を好む。
論文 参考訳(メタデータ) (2024-10-30T16:20:39Z) - Supervised Contrastive Representation Learning: Landscape Analysis with
Unconstrained Features [33.703796571991745]
最近の研究では、ゼロトレーニングを超えて訓練された過度パラメータ化されたディープニューラルネットワークが、最終層に特徴的な構造パターンを示すことが明らかになっている。
これらの結果から,これらのネットワークにおける最終層出力はクラス内変動が最小限であることがわかった。
論文 参考訳(メタデータ) (2024-02-29T06:02:45Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Neural Collapse in Deep Linear Networks: From Balanced to Imbalanced
Data [12.225207401994737]
大量のパラメータを持つ複雑な系は、収束するまでのトレーニングで同じ構造を持つことを示す。
特に、最終層の特徴がクラス平均に崩壊することが観察されている。
本結果は,最終層の特徴と分類器をベクトルからなる幾何学へ収束させることを示す。
論文 参考訳(メタデータ) (2023-01-01T16:29:56Z) - Neural Collapse with Normalized Features: A Geometric Analysis over the
Riemannian Manifold [30.3185037354742]
分類タスクのための正規化されたディープネットワーク上でのトレーニングでは、学習された特徴はいわゆる「神経崩壊」現象を示す。
特徴正規化により、より良い表現をより早く学習できることが示される。
論文 参考訳(メタデータ) (2022-09-19T17:26:32Z) - On the Optimization Landscape of Neural Collapse under MSE Loss: Global
Optimality with Unconstrained Features [38.05002597295796]
簡易等角密閉フレーム(ETF)の頂点に崩壊する崩壊層
興味深い経験的現象が、タスクのためのディープニューラルネットワークの最後の層と特徴で広く観測されている。
論文 参考訳(メタデータ) (2022-03-02T17:00:18Z) - Extended Unconstrained Features Model for Exploring Deep Neural Collapse [59.59039125375527]
近年、ディープニューラルネットワークで「神経崩壊」(NC)と呼ばれる現象が経験的に観察されている。
最近の論文は、単純化された「制約なし特徴モデル」を最適化する際に、この構造を持つ最小化器が出現することを示している。
本稿では, 正規化MSE損失に対するUDFについて検討し, クロスエントロピーの場合よりも最小化器の特徴がより構造化可能であることを示す。
論文 参考訳(メタデータ) (2022-02-16T14:17:37Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。