論文の概要: Neural Collapse Under MSE Loss: Proximity to and Dynamics on the Central
Path
- arxiv url: http://arxiv.org/abs/2106.02073v1
- Date: Thu, 3 Jun 2021 18:31:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:24:32.012283
- Title: Neural Collapse Under MSE Loss: Proximity to and Dynamics on the Central
Path
- Title(参考訳): MSE損失下での神経崩壊 : 中心経路の近さとダイナミクス
- Authors: X.Y. Han, Vardan Papyan, David L. Donoho
- Abstract要約: 最近の研究は、今日のディープネットトレーニングパラダイムで広範に発生するNeural Collapse(NC)と呼ばれる現象を発見した。
本研究では、3つの原型ネットワークと5つの標準データセットの実験的観測を報告し、MSE-NCの実証的現実を確立した。
我々は、制約のない特徴モデルにおいて、完全なニューラル崩壊を予測するクローズドフォームダイナミクスを生成する。
- 参考スコア(独自算出の注目度): 11.181590224799224
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent work [Papyan, Han, and Donoho, 2020] discovered a phenomenon called
Neural Collapse (NC) that occurs pervasively in today's deep net training
paradigm of driving cross-entropy loss towards zero. In this phenomenon, the
last-layer features collapse to their class-means, both the classifiers and
class-means collapse to the same Simplex Equiangular Tight Frame (ETF), and the
behavior of the last-layer classifier converges to that of the
nearest-class-mean decision rule. Since then, follow-ups-such as Mixon et al.
[2020] and Poggio and Liao [2020a,b]-formally analyzed this inductive bias by
replacing the hard-to-study cross-entropy by the more tractable mean squared
error (MSE) loss. But, these works stopped short of demonstrating the empirical
reality of MSE-NC on benchmark datasets and canonical networks-as had been done
in Papyan, Han, and Donoho [2020] for the cross-entropy loss. In this work, we
establish the empirical reality of MSE-NC by reporting experimental
observations for three prototypical networks and five canonical datasets with
code for reproducing NC. Following this, we develop three main contributions
inspired by MSE-NC. Firstly, we show a new theoretical decomposition of the MSE
loss into (A) a term assuming the last-layer classifier is exactly the
least-squares or Webb and Lowe [1990] classifier and (B) a term capturing the
deviation from this least-squares classifier. Secondly, we exhibit experiments
on canonical datasets and networks demonstrating that, during training,
term-(B) is negligible. This motivates a new theoretical construct: the central
path, where the linear classifier stays MSE-optimal-for the given feature
activations-throughout the dynamics. Finally, through our study of continually
renormalized gradient flow along the central path, we produce closed-form
dynamics that predict full Neural Collapse in an unconstrained features model.
- Abstract(参考訳): 最近の研究(Papyan, Han, and Donoho, 2020)は、今日のディープネットトレーニングパラダイムにおいて、クロスエントロピーの損失をゼロに導くために広範に発生するNeural Collapse(NC)と呼ばれる現象を発見した。
この現象では、最終層の特徴はクラス平均に崩壊し、分類器とクラス平均の両方が同じSimplex Equiangular Tight Frame (ETF)に崩壊し、最終層分類器の挙動は最寄りのクラス平均決定規則に収束する。
それ以来、Mixonらによるフォローアップが続いた。
[2020] と Poggio と Liao [2020a,b] は、この帰納バイアスを、よりトラクタブル平均二乗誤差 (MSE) の損失に置き換えることで、形式的に解析した。
しかしこれらの研究は、ベンチマークデータセットと標準ネットワークに関するmse-ncの実証的な現実をpapyan, han, donoho[2020]で実証し、クロスエントロピー損失を実証するには至らなかった。
本研究では、3つの原型ネットワークと5つの標準データセットに対する実験的な観測を報告し、MSE-NCの実証現実を確立した。
次に,MSE-NCにインスパイアされた3つの主要なコントリビューションを開発した。
まず, MSE の損失を (A) 最終層分類器がちょうど極小二乗あるいは Webb あるいは Lowe [1990] 分類器であると仮定する項と, (B) 最小二乗分類器からの偏差を捉える項に分解する。
第二に、訓練中は項(B)が無視可能であることを示す標準データセットとネットワークの実験を示す。
これは新しい理論的な構成を動機付けている: 線形分類器が mse-optimal- for the given feature activations-through the dynamics である。
最後に, 中心経路に沿った非正規化勾配流の研究を通じて, 非拘束特徴量モデルにおける完全なニューラル崩壊を予測する閉形式力学を生成する。
関連論文リスト
- Progressive Feedforward Collapse of ResNet Training [7.824226954174748]
トレーニング中の最終層の特徴とデータおよび中間層との関係について検討する。
重み減衰したResNetが終位相のワッサーシュタイン空間の測地線曲線を近似するので、よく訓練されたResNetのモデルを導出する。
本研究ではNCをPFCに拡張し、中間層の崩壊現象と入力データへの依存性をモデル化し、分類問題におけるResNetの理論的理解に光を当てる。
論文 参考訳(メタデータ) (2024-05-02T03:48:08Z) - Neural Collapse for Cross-entropy Class-Imbalanced Learning with Unconstrained ReLU Feature Model [25.61363481391964]
トレーニングデータセットがクラス不均衡である場合、いくつかのNeural Collapse(NC)プロパティはもはや真実ではない。
本稿では,制約のないReLU特徴量モデルの下で,NCを不均衡状態に一般化し,クロスエントロピー損失の低減を図る。
重みは,各クラスのトレーニングサンプル数によって異なるが,重みはスケールおよび集中型クラス平均値に一致していることがわかった。
論文 参考訳(メタデータ) (2024-01-04T04:53:31Z) - Neural Collapse Inspired Feature-Classifier Alignment for Few-Shot Class
Incremental Learning [120.53458753007851]
FSCIL(Few-shot class-incremental Learning)は、新しいセッションにおいて、新しいクラスごとにいくつかのトレーニングサンプルしかアクセスできないため、難しい問題である。
我々は最近発見された神経崩壊現象にインスパイアされたFSCILのこの不整合ジレンマに対処する。
我々は、FSCILのための神経崩壊誘発フレームワークを提案する。MiniImageNet、CUB-200、CIFAR-100データセットの実験により、提案したフレームワークが最先端のパフォーマンスより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-06T18:39:40Z) - Understanding Imbalanced Semantic Segmentation Through Neural Collapse [81.89121711426951]
セマンティックセグメンテーションは自然に文脈的相関とクラス間の不均衡分布をもたらすことを示す。
機能中心にレギュレータを導入し、ネットワークが魅力ある構造に近い機能を学ぶことを奨励する。
我々の手法は、ScanNet200テストリーダーボードで1位にランクインし、新しい記録を樹立する。
論文 参考訳(メタデータ) (2023-01-03T13:51:51Z) - Neural Collapse in Deep Linear Networks: From Balanced to Imbalanced
Data [12.225207401994737]
大量のパラメータを持つ複雑な系は、収束するまでのトレーニングで同じ構造を持つことを示す。
特に、最終層の特徴がクラス平均に崩壊することが観察されている。
本結果は,最終層の特徴と分類器をベクトルからなる幾何学へ収束させることを示す。
論文 参考訳(メタデータ) (2023-01-01T16:29:56Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - On the Optimization Landscape of Neural Collapse under MSE Loss: Global
Optimality with Unconstrained Features [38.05002597295796]
簡易等角密閉フレーム(ETF)の頂点に崩壊する崩壊層
興味深い経験的現象が、タスクのためのディープニューラルネットワークの最後の層と特徴で広く観測されている。
論文 参考訳(メタデータ) (2022-03-02T17:00:18Z) - Extended Unconstrained Features Model for Exploring Deep Neural Collapse [59.59039125375527]
近年、ディープニューラルネットワークで「神経崩壊」(NC)と呼ばれる現象が経験的に観察されている。
最近の論文は、単純化された「制約なし特徴モデル」を最適化する際に、この構造を持つ最小化器が出現することを示している。
本稿では, 正規化MSE損失に対するUDFについて検討し, クロスエントロピーの場合よりも最小化器の特徴がより構造化可能であることを示す。
論文 参考訳(メタデータ) (2022-02-16T14:17:37Z) - Prevalence of Neural Collapse during the terminal phase of deep learning
training [7.031848258307718]
終末訓練(TPT)によるDeepnets分類訓練の現代的実践
TPT中、トレーニングエラーは事実上ゼロであり、トレーニング損失はゼロにプッシュされる。
TPTによって誘導される対称的かつ非常に単純な幾何学は、より良い性能、より良い一般化、より良い解釈可能性を含む重要な利益をもたらす。
論文 参考訳(メタデータ) (2020-08-18T23:12:54Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。