論文の概要: The Implicit Bias of Depth: From Neural Collapse to Softmax Codes
- arxiv url: http://arxiv.org/abs/2605.23087v1
- Date: Thu, 21 May 2026 22:37:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.126432
- Title: The Implicit Bias of Depth: From Neural Collapse to Softmax Codes
- Title(参考訳): 神経崩壊からソフトマックスコードへの奥行きの急激なバイアス
- Authors: Connall Garrod, Jonathan P. Keating, Christos Thrampoulidis,
- Abstract要約: 入力を正規化せずに訓練したディープ線形ネットワークと等価なディープ非拘束特徴モデル(UFM)について検討する。
深度は暗黙の低ランクバイアスを誘発し、NCに対する低ランクの代替を促進させることを示す。
いくつかの効果は反対方向に作用し、ランダムなネットワークの場合、高階の解に対する幅のトレーニングが増加する。
- 参考スコア(独自算出の注目度): 29.85277126753054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural collapse (NC) describes the structured geometry that emerges in the features and weights of trained classifiers. Recent theory suggests NC can be suboptimal in deep architectures, attributing this to an explicit low-rank bias from L2 regularization. We study the deep unconstrained feature model (UFM)-equivalent to a deep linear network with orthogonal inputs-trained without regularization, to isolate how gradient descent and depth alone shape NC. We show that depth induces an implicit low-rank bias: low-rank matrices propagate norm more efficiently through successive multiplications, promoting low-rank alternatives to NC. These alternatives, we argue, correspond to softmax codes: max-margin solutions previously found in width-bottlenecked networks. Analyzing training dynamics under spectral initialization, we identify an early-time repulsion among singular values that drives low-rank emergence, and characterize how depth shrinks NC's basin of attraction. Finally, we show that some effects act in the opposite direction: for randomly initialized networks, increasing width biases training toward higher-rank solutions. Our results provide the first asymptotic and dynamic characterization of implicit bias in deep UFMs trained with unregularized multiclass cross-entropy.
- Abstract(参考訳): ニューラル崩壊(Neural collapse, NC)とは、訓練された分類器の特徴と重みに現れる構造的幾何学のこと。
最近の理論では、NCはL2正規化から明らかな低ランクバイアスに起因して、深層構造において最適である可能性が示唆されている。
直交入力を正規化せずに学習した深部線形ネットワークと等価な深部非拘束特徴モデル (UFM) について検討し, 勾配降下と深さ単独形状NCの分離について検討した。
低ランク行列は、連続する乗算を通じてノルムをより効率的に伝播し、NCの低ランク代替品を促進する。
これらの代替法はソフトマックス符号に対応している、と我々は主張する。
スペクトル初期化下でのトレーニングダイナミクスを解析し、低ランクの出現を促す特異値の早期反発を同定し、NCのアトラクションの流域の深さがいかに縮小するかを特徴付ける。
最後に、ランダムに初期化されたネットワークに対して、高階解に対するトレーニングの幅バイアスを増大させることにより、いくつかの効果が反対方向に作用することを示す。
本研究は,非正規化マルチクラスクロスエントロピーで訓練した深部UFMにおける暗黙バイアスの最初の漸近的,動的特徴を与えるものである。
関連論文リスト
- Neural Collapse under Gradient Flow on Shallow ReLU Networks for Orthogonally Separable Data [52.737775129027575]
直交分離可能なデータを分類するための2層ReLUネットワーク上の勾配流がニューラル・コラプス(NC)を示すことを示す。
NCの出現を促進するためのトレーニング力学の暗黙バイアスの役割を明らかにする。
論文 参考訳(メタデータ) (2025-10-24T01:36:19Z) - The Persistence of Neural Collapse Despite Low-Rank Bias [0.0]
神経崩壊 (NC) とその多層構造である深層神経崩壊 (DNC) は、訓練された深層ネットワークの特徴と重みに生じる構造的幾何学を記述している。
sukenikらによる最近の理論的研究は、DNCが平均二乗誤差(MSE)損失下において最適であることを示している。
本研究では、この結果をクロスエントロピー損失で訓練された深いUFMにまで拡張し、DNCを含む高階構造が一般に最適でないことを示す。
論文 参考訳(メタデータ) (2024-10-30T16:20:39Z) - Neural Collapse versus Low-rank Bias: Is Deep Neural Collapse Really Optimal? [21.05674840609307]
ディープニューラルネットワーク(DNN)は、ニューラル崩壊(NC)と呼ばれる最終層に驚くべき構造を示す
多クラス分類において、任意の深さの非線形モデルに焦点をあて、驚くべき定性的シフトを明らかにする。
主な原因は、多層正規化スキームの低ランクバイアスである。
論文 参考訳(メタデータ) (2024-05-23T11:55:49Z) - Feature Learning and Generalization in Deep Networks with Orthogonal Weights [1.7956122940209063]
独立なガウス分布からの数値的な重みを持つディープニューラルネットワークは臨界に調整することができる。
これらのネットワークは、ネットワークの深さとともに線形に成長する変動を示す。
行列のアンサンブルから得られるタン・アクティベーションと重みを持つ長方形のネットワークが、それに対応する事前アクティベーション・揺らぎを持つことを示す。
論文 参考訳(メタデータ) (2023-10-11T18:00:02Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Revealing the Structure of Deep Neural Networks via Convex Duality [70.15611146583068]
我々は,正規化深層ニューラルネットワーク(DNN)について検討し,隠蔽層の構造を特徴付ける凸解析フレームワークを導入する。
正規正規化学習問題に対する最適隠蔽層重みの集合が凸集合の極点として明確に見出されることを示す。
ホワイトデータを持つ深部ReLUネットワークに同じ特徴を応用し、同じ重み付けが成り立つことを示す。
論文 参考訳(メタデータ) (2020-02-22T21:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。