論文の概要: Neural Collapse Beyond the Unconstrained Features Model: Landscape, Dynamics, and Generalization in the Mean-Field Regime
- arxiv url: http://arxiv.org/abs/2501.19104v2
- Date: Tue, 04 Feb 2025 12:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 11:34:32.885282
- Title: Neural Collapse Beyond the Unconstrained Features Model: Landscape, Dynamics, and Generalization in the Mean-Field Regime
- Title(参考訳): 制約のない特徴モデルを超えての神経崩壊--景観・ダイナミクス・一般化-
- Authors: Diyuan Wu, Marco Mondelli,
- Abstract要約: ニューラル崩壊(Neural Collapse)は、よく訓練されたニューラルネットワークの最終層表現が高度に構造化された幾何学に収束する現象である。
本稿では、NC1として知られる最初の(そして最も基本的な)特性に焦点を当てる。
我々はNC1を3層ニューラルネットワークで解析し、最初の2層は平均場状態で動作し、次に線形層で処理する。
- 参考スコア(独自算出の注目度): 17.726510286383697
- License:
- Abstract: Neural Collapse is a phenomenon where the last-layer representations of a well-trained neural network converge to a highly structured geometry. In this paper, we focus on its first (and most basic) property, known as NC1: the within-class variability vanishes. While prior theoretical studies establish the occurrence of NC1 via the data-agnostic unconstrained features model, our work adopts a data-specific perspective, analyzing NC1 in a three-layer neural network, with the first two layers operating in the mean-field regime and followed by a linear layer. In particular, we establish a fundamental connection between NC1 and the loss landscape: we prove that points with small empirical loss and gradient norm (thus, close to being stationary) approximately satisfy NC1, and the closeness to NC1 is controlled by the residual loss and gradient norm. We then show that (i) gradient flow on the mean squared error converges to NC1 solutions with small empirical loss, and (ii) for well-separated data distributions, both NC1 and vanishing test loss are achieved simultaneously. This aligns with the empirical observation that NC1 emerges during training while models attain near-zero test error. Overall, our results demonstrate that NC1 arises from gradient training due to the properties of the loss landscape, and they show the co-occurrence of NC1 and small test error for certain data distributions.
- Abstract(参考訳): ニューラル崩壊(Neural Collapse)は、よく訓練されたニューラルネットワークの最終層表現が高度に構造化された幾何学に収束する現象である。
本稿では、NC1として知られる最初の(そして最も基本的な)特性に焦点をあてる。
従来の理論的研究では,データに依存しない特徴モデルによるNC1の発生が確認されていたが,本研究では3層ニューラルネットワークでNC1を解析し,まず平均場構造で動作し,次に線形層で処理する。
特に、NC1とロスランドスケープの基本的な関係を確立し、実験的な損失が小さい点と勾配ノルム(静止に近い点)がNC1をほぼ満たし、NC1の近接性は残留損失と勾配ノルムによって制御されることを示す。
次にそれを示します
(i)平均二乗誤差上の勾配流は、経験損失の少ないNC1解に収束し、
(ii) 十分に分離されたデータ分布に対して、NC1と消滅するテスト損失を同時に達成する。
これは、NC1がトレーニング中に出現し、モデルがほぼゼロに近いテストエラーに達するという経験的な観察と一致する。
以上の結果から,損失景観の特性からNC1は勾配学習から発生し,NC1の共起とデータ分布の誤差の小さいことが示唆された。
関連論文リスト
- Beyond Unconstrained Features: Neural Collapse for Shallow Neural Networks with General Data [0.8594140167290099]
ニューラル崩壊(Neural collapse, NC)は、ディープ・ニューラル・ネットワーク(DNN)の終末期に発生する現象である。
2層または3層ニューラルネットワークでNCが発生した場合の完全な特徴付けを提供する。
論文 参考訳(メタデータ) (2024-09-03T12:30:21Z) - Kernel vs. Kernel: Exploring How the Data Structure Affects Neural Collapse [9.975341265604577]
ニューラル・コラプス(Neural Collapse)とは、NC1と呼ばれるネットワークの最も深い機能のクラス内での多様性の低下である。
この制限に悩まされないカーネルベースの分析を提供する。
NTKは、原型データモデルに対するNNGPよりも崩壊した特徴を表現していないことを示す。
論文 参考訳(メタデータ) (2024-06-04T08:33:56Z) - Supervised Contrastive Representation Learning: Landscape Analysis with
Unconstrained Features [33.703796571991745]
最近の研究では、ゼロトレーニングを超えて訓練された過度パラメータ化されたディープニューラルネットワークが、最終層に特徴的な構造パターンを示すことが明らかになっている。
これらの結果から,これらのネットワークにおける最終層出力はクラス内変動が最小限であることがわかった。
論文 参考訳(メタデータ) (2024-02-29T06:02:45Z) - Towards Demystifying the Generalization Behaviors When Neural Collapse
Emerges [132.62934175555145]
Neural Collapse(NC)は、トレーニング末期(TPT)におけるディープニューラルネットワークのよく知られた現象である
本稿では,列車の精度が100%に達した後も,継続訓練がテストセットの精度向上に繋がる理由を理論的に説明する。
我々はこの新たに発見された性質を「非保守的一般化」と呼ぶ。
論文 参考訳(メタデータ) (2023-10-12T14:29:02Z) - Deep Neural Collapse Is Provably Optimal for the Deep Unconstrained
Features Model [21.79259092920587]
深い制約のない特徴モデルにおいて、二分分類のための一意な大域的最適化は、ディープ・ニューラル・崩壊(DNC)に典型的なすべての特性を示すことを示す。
また, (i) 深部非拘束特徴モデルを勾配降下法により最適化することにより, 得られた解は我々の理論とよく一致し, (ii) 訓練されたネットワークはDNCに適した非拘束特徴を回復することを示した。
論文 参考訳(メタデータ) (2023-05-22T15:51:28Z) - Neural Collapse in Deep Linear Networks: From Balanced to Imbalanced
Data [12.225207401994737]
大量のパラメータを持つ複雑な系は、収束するまでのトレーニングで同じ構造を持つことを示す。
特に、最終層の特徴がクラス平均に崩壊することが観察されている。
本結果は,最終層の特徴と分類器をベクトルからなる幾何学へ収束させることを示す。
論文 参考訳(メタデータ) (2023-01-01T16:29:56Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Generalization Guarantee of Training Graph Convolutional Networks with
Graph Topology Sampling [83.77955213766896]
グラフ畳み込みネットワーク(GCN)は近年,グラフ構造化データの学習において大きな成功を収めている。
スケーラビリティ問題に対処するため、Gsの学習におけるメモリと計算コストを削減するため、グラフトポロジサンプリングが提案されている。
本稿では,3層GCNのトレーニング(最大)におけるグラフトポロジサンプリングの最初の理論的正当性について述べる。
論文 参考訳(メタデータ) (2022-07-07T21:25:55Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Extended Unconstrained Features Model for Exploring Deep Neural Collapse [59.59039125375527]
近年、ディープニューラルネットワークで「神経崩壊」(NC)と呼ばれる現象が経験的に観察されている。
最近の論文は、単純化された「制約なし特徴モデル」を最適化する際に、この構造を持つ最小化器が出現することを示している。
本稿では, 正規化MSE損失に対するUDFについて検討し, クロスエントロピーの場合よりも最小化器の特徴がより構造化可能であることを示す。
論文 参考訳(メタデータ) (2022-02-16T14:17:37Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。