論文の概要: The Persistence of Neural Collapse Despite Low-Rank Bias
- arxiv url: http://arxiv.org/abs/2410.23169v2
- Date: Sun, 05 Oct 2025 09:14:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:09.073371
- Title: The Persistence of Neural Collapse Despite Low-Rank Bias
- Title(参考訳): 低域バイアスによる神経崩壊の持続性
- Authors: Connall Garrod, Jonathan P. Keating,
- Abstract要約: 神経崩壊 (NC) とその多層構造である深層神経崩壊 (DNC) は、訓練された深層ネットワークの特徴と重みに生じる構造的幾何学を記述している。
sukenikらによる最近の理論的研究は、DNCが平均二乗誤差(MSE)損失下において最適であることを示している。
本研究では、この結果をクロスエントロピー損失で訓練された深いUFMにまで拡張し、DNCを含む高階構造が一般に最適でないことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural collapse (NC) and its multi-layer variant, deep neural collapse (DNC), describe a structured geometry that occurs in the features and weights of trained deep networks. Recent theoretical work by Sukenik et al. using a deep unconstrained feature model (UFM) suggests that DNC is suboptimal under mean squared error (MSE) loss. They heuristically argue that this is due to low-rank bias induced by L2 regularization. In this work, we extend this result to deep UFMs trained with cross-entropy loss, showing that high-rank structures, including DNC, are not generally optimal. We characterize the associated low-rank bias, proving a fixed bound on the number of non-negligible singular values at global minima as network depth increases. We further analyze the loss surface, demonstrating that DNC is more prevalent in the landscape than other critical configurations, which we argue explains its frequent empirical appearance. Our results are validated through experiments in deep UFMs and deep neural networks.
- Abstract(参考訳): 神経崩壊 (NC) とその多層構造である深層神経崩壊 (DNC) は、訓練された深層ネットワークの特徴と重みに生じる構造的幾何学を記述している。
最近のSsukenikらによるUFM(Deep UnConstrained Feature Model)による理論的研究は、DNCが平均二乗誤差(MSE)損失下において最適であることを示している。
彼らは、これはL2正則化によって誘導される低ランクバイアスによるものであると主張している。
本研究では、この結果をクロスエントロピー損失で訓練された深いUFMにまで拡張し、DNCを含む高階構造が一般に最適でないことを示す。
我々は関連する低ランクバイアスを特徴付け、ネットワークの深さが増加するにつれて、大域的最小値における非無視特異値の数に一定の制限を課す。
さらに、損失面を解析し、DNCが他の重要な構成よりもランドスケープで広く普及していることを示し、その頻繁な経験的外観を論じる。
我々の結果は、深層FMと深層ニューラルネットワークの実験を通じて検証される。
関連論文リスト
- Neural Collapse versus Low-rank Bias: Is Deep Neural Collapse Really Optimal? [21.05674840609307]
ディープニューラルネットワーク(DNN)は、ニューラル崩壊(NC)と呼ばれる最終層に驚くべき構造を示す
多クラス分類において、任意の深さの非線形モデルに焦点をあて、驚くべき定性的シフトを明らかにする。
主な原因は、多層正規化スキームの低ランクバイアスである。
論文 参考訳(メタデータ) (2024-05-23T11:55:49Z) - Unifying Low Dimensional Observations in Deep Learning Through the Deep Linear Unconstrained Feature Model [0.0]
深部ニューラルネットワークの重み,ヘッセン,勾配,特徴ベクトルの低次元構造について検討した。
一般化された制約のない特徴モデルでそれらを統一する方法を示す。
論文 参考訳(メタデータ) (2024-04-09T08:17:32Z) - Neural Rank Collapse: Weight Decay and Small Within-Class Variability
Yield Low-Rank Bias [4.829265670567825]
トレーニングネットワークの低ランクバイアスとニューラルネットワークの神経崩壊特性を結びつける,興味深いニューラルネットワークランク崩壊現象の存在を示す。
重み劣化パラメータが大きくなるにつれて、ネットワーク内の各レイヤのランクは、前のレイヤの隠れ空間埋め込みのクラス内変動に比例して減少する。
論文 参考訳(メタデータ) (2024-02-06T13:44:39Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - On the Robustness of Neural Collapse and the Neural Collapse of Robustness [6.227447957721122]
ニューラル・コラプス(Neural Collapse)は、ニューラルネットワークのトレーニングの終盤において、特徴ベクトルと分類重みが非常に単純な幾何学的配置(単純度)に収束する奇妙な現象を指す。
これらの単純さの安定性について検討し、単純な構造は小さな対角攻撃によって消失することを示した。
我々は、ロバストな機械学習モデルと非ロバストな機械学習モデルの斬新な特性を識別し、以前の階層とは異なり、摂動データに対する信頼性の高い単純化を維持していることを示す。
論文 参考訳(メタデータ) (2023-11-13T16:18:58Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。
この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-25T07:42:06Z) - An Unconstrained Layer-Peeled Perspective on Neural Collapse [20.75423143311858]
非拘束層列モデル (ULPM) と呼ばれるサロゲートモデルを導入する。
このモデル上の勾配流は、その大域的最小化器における神経崩壊を示す最小ノルム分離問題の臨界点に収束することを示す。
また,本研究の結果は,実世界のタスクにおけるニューラルネットワークのトレーニングにおいて,明示的な正規化や重み劣化が使用されない場合にも有効であることを示す。
論文 参考訳(メタデータ) (2021-10-06T14:18:47Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。