論文の概要: A Geometric Analysis of Neural Collapse with Unconstrained Features
- arxiv url: http://arxiv.org/abs/2105.02375v1
- Date: Thu, 6 May 2021 00:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:40:40.232083
- Title: A Geometric Analysis of Neural Collapse with Unconstrained Features
- Title(参考訳): 制約のない特徴を持つ神経崩壊の幾何学的解析
- Authors: Zhihui Zhu, Tianyu Ding, Jinxin Zhou, Xiao Li, Chong You, Jeremias
Sulam, and Qing Qu
- Abstract要約: Neural;Collapse$の最初のグローバル最適化ランドスケープ分析を提供します。
この現象は、トレーニングの終末期におけるニューラルネットワークのラスト層分類器と特徴に現れる。
- 参考スコア(独自算出の注目度): 40.66585948844492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide the first global optimization landscape analysis of
$Neural\;Collapse$ -- an intriguing empirical phenomenon that arises in the
last-layer classifiers and features of neural networks during the terminal
phase of training. As recently reported by Papyan et al., this phenomenon
implies that ($i$) the class means and the last-layer classifiers all collapse
to the vertices of a Simplex Equiangular Tight Frame (ETF) up to scaling, and
($ii$) cross-example within-class variability of last-layer activations
collapses to zero. We study the problem based on a simplified
$unconstrained\;feature\;model$, which isolates the topmost layers from the
classifier of the neural network. In this context, we show that the classical
cross-entropy loss with weight decay has a benign global landscape, in the
sense that the only global minimizers are the Simplex ETFs while all other
critical points are strict saddles whose Hessian exhibit negative curvature
directions. In contrast to existing landscape analysis for deep neural networks
which is often disconnected from practice, our analysis of the simplified model
not only does it explain what kind of features are learned in the last layer,
but it also shows why they can be efficiently optimized in the simplified
settings, matching the empirical observations in practical deep network
architectures. These findings could have profound implications for
optimization, generalization, and robustness of broad interests. For example,
our experiments demonstrate that one may set the feature dimension equal to the
number of classes and fix the last-layer classifier to be a Simplex ETF for
network training, which reduces memory cost by over $20\%$ on ResNet18 without
sacrificing the generalization performance.
- Abstract(参考訳): 我々は、最後の層分類器で発生する興味深い経験的現象である$Neural\;Collapse$の最初のグローバルな最適化ランドスケープ分析と、トレーニングの最終フェーズにおけるニューラルネットワークの特徴を提供する。
papyanらによって最近報告されたように、この現象はクラス平均 (i$) とラストレイヤー分類器 (last-layer classifiers) がすべて、スケーリングまでの単純x等角タイトフレーム (etf) の頂点に崩壊し、ラストレイヤアクティベーションのクラス内変動のクロスサンプル (ii$) がゼロに崩壊することを意味する。
我々は,ニューラルネットワークの分類器から最上層を分離する単純化された$unconstrained\;feature\;model$に基づいて,この問題を研究する。
この文脈では、古典的クロスエントロピー損失は、唯一の大域最小化器がSimplex ETFであり、他のすべての臨界点は、ヘッセンが負の曲率方向を示す厳密なサドルであるという意味で、良質なグローバルランドスケープを持つことを示す。
従来の深層ニューラルネットワークのランドスケープ解析とは対照的に,単純化モデルの解析では,前層でどのような特徴が学習されているかを説明するだけでなく,実際の深層ネットワークアーキテクチャにおける経験的観測結果と一致して,単純化された設定で効率的に最適化できる理由を示す。
これらの発見は幅広い関心の最適化、一般化、堅牢性に大きな影響を与える可能性がある。
例えば、実験では、クラス数と同等の機能次元を設定し、ネットワークトレーニングのためのsimplex etfとしてラストレイヤ分類器を修正し、一般化性能を犠牲にすることなくresnet18のメモリコストを20ドル以上削減できることを示した。
関連論文リスト
- Universal Consistency of Wide and Deep ReLU Neural Networks and Minimax
Optimal Convergence Rates for Kolmogorov-Donoho Optimal Function Classes [7.433327915285969]
我々は,ロジスティック損失に基づいて学習した広帯域および深部ReLUニューラルネットワーク分類器の普遍的整合性を証明する。
また、ニューラルネットワークに基づく分類器が最小収束率を達成できる確率尺度のクラスに対して十分な条件を与える。
論文 参考訳(メタデータ) (2024-01-08T23:54:46Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Neural Collapse Inspired Feature-Classifier Alignment for Few-Shot Class
Incremental Learning [120.53458753007851]
FSCIL(Few-shot class-incremental Learning)は、新しいセッションにおいて、新しいクラスごとにいくつかのトレーニングサンプルしかアクセスできないため、難しい問題である。
我々は最近発見された神経崩壊現象にインスパイアされたFSCILのこの不整合ジレンマに対処する。
我々は、FSCILのための神経崩壊誘発フレームワークを提案する。MiniImageNet、CUB-200、CIFAR-100データセットの実験により、提案したフレームワークが最先端のパフォーマンスより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-06T18:39:40Z) - Neural Collapse in Deep Linear Networks: From Balanced to Imbalanced
Data [12.225207401994737]
大量のパラメータを持つ複雑な系は、収束するまでのトレーニングで同じ構造を持つことを示す。
特に、最終層の特徴がクラス平均に崩壊することが観察されている。
本結果は,最終層の特徴と分類器をベクトルからなる幾何学へ収束させることを示す。
論文 参考訳(メタデータ) (2023-01-01T16:29:56Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Neural Collapse with Normalized Features: A Geometric Analysis over the
Riemannian Manifold [30.3185037354742]
分類タスクのための正規化されたディープネットワーク上でのトレーニングでは、学習された特徴はいわゆる「神経崩壊」現象を示す。
特徴正規化により、より良い表現をより早く学習できることが示される。
論文 参考訳(メタデータ) (2022-09-19T17:26:32Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - On the Optimization Landscape of Neural Collapse under MSE Loss: Global
Optimality with Unconstrained Features [38.05002597295796]
簡易等角密閉フレーム(ETF)の頂点に崩壊する崩壊層
興味深い経験的現象が、タスクのためのディープニューラルネットワークの最後の層と特徴で広く観測されている。
論文 参考訳(メタデータ) (2022-03-02T17:00:18Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。