論文の概要: Provable Emergence of Deep Neural Collapse and Low-Rank Bias in $L^2$-Regularized Nonlinear Networks
- arxiv url: http://arxiv.org/abs/2402.03991v2
- Date: Sat, 23 Aug 2025 20:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:44.946737
- Title: Provable Emergence of Deep Neural Collapse and Low-Rank Bias in $L^2$-Regularized Nonlinear Networks
- Title(参考訳): L^2$-正規化非線形ネットワークにおける深い神経崩壊と低ランクバイアスの発生確率
- Authors: Emanuele Zangrando, Piero Deidda, Simone Brugiapaglia, Nicola Guglielmi, Francesco Tudisco,
- Abstract要約: 非線形活性化を伴うフィードフォワードネットワークの一般クラスに対して,ディープ・ニューラル・崩壊と低ランク・ウェイト行列の出現との関係を示す。
また, 深い神経崩壊構成のグローバルな最適性や, 補間最小点と大域的最適点の間の損失障壁の実用的欠如を証明した。
- 参考スコア(独自算出の注目度): 8.271417588922336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work in deep learning has shown strong empirical and theoretical evidence of an implicit low-rank bias: weight matrices in deep networks tend to be approximately low-rank. Moreover, removing relatively small singular values during training, or from available trained models, may significantly reduce model size while maintaining or even improving model performance. However, the majority of the theoretical investigations around low-rank bias in neural networks deal with oversimplified models, often not taking into account the impact of nonlinearity. In this work, we first of all quantify a link between the phenomenon of deep neural collapse and the emergence of low-rank weight matrices for a general class of feedforward networks with nonlinear activation. In addition, for the general class of nonlinear feedforward and residual networks, we prove the global optimality of deep neural collapsed configurations and the practical absence of a loss barrier between interpolating minima and globally optimal points, offering a possible explanation for its common occurrence. As a byproduct, our theory also allows us to forecast the final global structure of singular values before training. Our theoretical findings are supported by a range of experimental evaluations illustrating the phenomenon.
- Abstract(参考訳): ディープラーニングにおける最近の研究は、暗黙の低ランクバイアスの強い経験的および理論的証拠を示しており、ディープネットワークにおける重み行列はおよそ低ランクである。
さらに、トレーニング中に比較的小さな特異値を取り除くか、あるいは利用可能なトレーニングモデルから取り除くことで、モデルパフォーマンスを維持したり改善したりしながら、モデルのサイズを大幅に削減することができる。
しかしながら、ニューラルネットワークにおける低ランクバイアスに関する理論的研究の大部分は、過度に単純化されたモデルに対処し、しばしば非線形性の影響を考慮していない。
本研究では,まず, 非線形活性化を伴う一般のフィードフォワードネットワークにおいて, ディープ・ニューラル・崩壊現象と低ランク・ウェイト行列の出現との関係を定量化する。
さらに, 非線形フィードフォワードおよび残差ネットワークの一般クラスにおいて, 深い神経崩壊構成の大域的最適性と, 補間最小点と大域的最適点の間の損失障壁の実用的欠如を証明し, その共通点を説明する。
副産物として、我々の理論は訓練前に特異値の最終大域構造を予測できる。
理論的な知見は, この現象を実証する実験的な評価によって裏付けられている。
関連論文リスト
- Generalization performance of narrow one-hidden layer networks in the teacher-student setting [40.69556943879117]
我々は、狭いネットワーク、すなわち多数の隠れユニットを持つネットワークに対して、入力次元よりもはるかに小さい一般理論を開発する。
我々の理論は、回帰や分類タスクで訓練されたニューラルネットワークの一般化誤差を正確に予測する。
論文 参考訳(メタデータ) (2025-07-01T10:18:20Z) - Towards the Training of Deeper Predictive Coding Neural Networks [53.15874572081944]
平衡伝播で訓練された予測符号化ネットワークは、反復エネルギープロセスを通じて推論を行うニューラルネットワークである。
従来の研究では、浅層建築において効果が示されたが、深さが5層から7層を超えると性能が著しく低下した。
この劣化の原因は,重み更新時の層間エラーの指数的不均衡化と,より深い層内の更新を導く上で,前層からの予測が有効でないことにある。
論文 参考訳(メタデータ) (2025-06-30T12:44:47Z) - An Overview of Low-Rank Structures in the Training and Adaptation of Large Models [52.67110072923365]
近年の研究では、低ランク構造の出現というディープネットワークの広範な現象が明らかになった。
これらの暗黙の低次元パターンは、トレーニングの効率と微調整された大規模モデルを改善するための貴重な洞察を提供する。
深層学習のための低ランク構造の利用の進歩を概観し,その数学的基礎に光を当てる。
論文 参考訳(メタデータ) (2025-03-25T17:26:09Z) - Low-rank bias, weight decay, and model merging in neural networks [12.352761060862072]
我々は、L2$正規化でトレーニングされたディープニューラルネットワークのいくつかの特性を示す。
また、L2$正規化と低ランクバイアスによって実現されるマルチタスク学習現象についても検討した。
論文 参考訳(メタデータ) (2025-02-24T17:17:00Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Rank Diminishing in Deep Neural Networks [71.03777954670323]
ニューラルネットワークのランクは、層をまたがる情報を測定する。
これは機械学習の幅広い領域にまたがる重要な構造条件の例である。
しかし、ニューラルネットワークでは、低ランク構造を生み出す固有のメカニズムはあいまいで不明瞭である。
論文 参考訳(メタデータ) (2022-06-13T12:03:32Z) - SGD and Weight Decay Secretly Minimize the Rank of Your Neural Network [8.79431718760617]
ミニバッチSGDとウェイト崩壊によるトレーニングは、ウェイト行列のランク最小化へのバイアスを引き起こす。
このバイアスは、より小さなバッチサイズ、より高い学習率、より強いウェイト崩壊によってより顕著になる。
このバイアスと一般化の関係を実証的に検討し、テスト性能に限界効果があることを見出した。
論文 参考訳(メタデータ) (2022-06-12T17:06:35Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Gradient-trained Weights in Wide Neural Networks Align Layerwise to
Error-scaled Input Correlations [11.176824373696324]
我々は、勾配降下によって訓練された非線形活性化を伴う無限幅ニューラルネットワークの層方向の重みダイナミクスを導出する。
我々は、バックプロパゲーションと同じアライメントを理論的に達成するバックプロパゲーションフリー学習ルール、Align-zeroとAlign-adaを定式化した。
論文 参考訳(メタデータ) (2021-06-15T21:56:38Z) - Formalizing Generalization and Robustness of Neural Networks to Weight
Perturbations [58.731070632586594]
非負のモノトーンアクティベーション機能を備えたフィードフォワードニューラルネットワークの重量変動に対する最初の形式解析を提供します。
また,重みの摂動に対して一般化し頑健なニューラルネットワークを訓練するための新しい理論駆動損失関数を設計した。
論文 参考訳(メタデータ) (2021-03-03T06:17:03Z) - Exploring Deep Neural Networks via Layer-Peeled Model: Minority Collapse
in Imbalanced Training [39.137793683411424]
解析的に抽出できない最適化プログラムである textitLayer-Peeled Model を導入する。
このモデルでは,よく訓練されたネットワークの特徴の多くを継承し,ディープラーニング学習の一般的な経験的パターンを説明・予測するための効果的なツールを提供する。
特に,本モデルでは,テキストマイノリティ崩壊(textitMinority Collapse)という,マイノリティクラスにおけるディープラーニングモデルの性能を根本的に制限する未知の現象が明らかにされている。
論文 参考訳(メタデータ) (2021-01-29T17:37:17Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。