論文の概要: Neural Rank Collapse: Weight Decay and Small Within-Class Variability
Yield Low-Rank Bias
- arxiv url: http://arxiv.org/abs/2402.03991v1
- Date: Tue, 6 Feb 2024 13:44:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 14:41:13.025129
- Title: Neural Rank Collapse: Weight Decay and Small Within-Class Variability
Yield Low-Rank Bias
- Title(参考訳): ニューラルランクの崩壊:体重減少と低ランクバイアスの少ないクラス内変動
- Authors: Emanuele Zangrando, Piero Deidda, Simone Brugiapaglia, Nicola
Guglielmi, Francesco Tudisco
- Abstract要約: トレーニングネットワークの低ランクバイアスとニューラルネットワークの神経崩壊特性を結びつける,興味深いニューラルネットワークランク崩壊現象の存在を示す。
重み劣化パラメータが大きくなるにつれて、ネットワーク内の各レイヤのランクは、前のレイヤの隠れ空間埋め込みのクラス内変動に比例して減少する。
- 参考スコア(独自算出の注目度): 4.829265670567825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work in deep learning has shown strong empirical and theoretical
evidence of an implicit low-rank bias: weight matrices in deep networks tend to
be approximately low-rank and removing relatively small singular values during
training or from available trained models may significantly reduce model size
while maintaining or even improving model performance. However, the majority of
the theoretical investigations around low-rank bias in neural networks deal
with oversimplified deep linear networks. In this work, we consider general
networks with nonlinear activations and the weight decay parameter, and we show
the presence of an intriguing neural rank collapse phenomenon, connecting the
low-rank bias of trained networks with networks' neural collapse properties: as
the weight decay parameter grows, the rank of each layer in the network
decreases proportionally to the within-class variability of the hidden-space
embeddings of the previous layers. Our theoretical findings are supported by a
range of experimental evaluations illustrating the phenomenon.
- Abstract(参考訳): 近年のディープラーニングの研究は、暗黙の低ランクバイアスの強い経験的および理論的証拠を示しており、ディープネットワークの重み行列は、トレーニング中や利用可能なトレーニングモデルから比較的小さな特異値を取り除く傾向にあり、モデルの性能を維持したり改善したりしながら、モデルのサイズを著しく減少させる可能性がある。
しかし、ニューラルネットワークにおける低ランクバイアスに関する理論的研究の大部分は、単純化されたディープ線形ネットワークを扱う。
本研究では,非線形活性化と重み崩壊パラメータを持つ一般ネットワークを考察し,学習したネットワークの低ランクバイアスとネットワークの神経崩壊特性を結びつける,興味深い神経ランク崩壊現象の存在を示す。
理論的な知見は, この現象を実証する実験的な評価によって裏付けられている。
関連論文リスト
- Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Rank Diminishing in Deep Neural Networks [71.03777954670323]
ニューラルネットワークのランクは、層をまたがる情報を測定する。
これは機械学習の幅広い領域にまたがる重要な構造条件の例である。
しかし、ニューラルネットワークでは、低ランク構造を生み出す固有のメカニズムはあいまいで不明瞭である。
論文 参考訳(メタデータ) (2022-06-13T12:03:32Z) - SGD and Weight Decay Secretly Minimize the Rank of Your Neural Network [8.79431718760617]
ミニバッチSGDとウェイト崩壊によるトレーニングは、ウェイト行列のランク最小化へのバイアスを引き起こす。
このバイアスは、より小さなバッチサイズ、より高い学習率、より強いウェイト崩壊によってより顕著になる。
このバイアスと一般化の関係を実証的に検討し、テスト性能に限界効果があることを見出した。
論文 参考訳(メタデータ) (2022-06-12T17:06:35Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Gradient-trained Weights in Wide Neural Networks Align Layerwise to
Error-scaled Input Correlations [11.176824373696324]
我々は、勾配降下によって訓練された非線形活性化を伴う無限幅ニューラルネットワークの層方向の重みダイナミクスを導出する。
我々は、バックプロパゲーションと同じアライメントを理論的に達成するバックプロパゲーションフリー学習ルール、Align-zeroとAlign-adaを定式化した。
論文 参考訳(メタデータ) (2021-06-15T21:56:38Z) - Formalizing Generalization and Robustness of Neural Networks to Weight
Perturbations [58.731070632586594]
非負のモノトーンアクティベーション機能を備えたフィードフォワードニューラルネットワークの重量変動に対する最初の形式解析を提供します。
また,重みの摂動に対して一般化し頑健なニューラルネットワークを訓練するための新しい理論駆動損失関数を設計した。
論文 参考訳(メタデータ) (2021-03-03T06:17:03Z) - Exploring Deep Neural Networks via Layer-Peeled Model: Minority Collapse
in Imbalanced Training [39.137793683411424]
解析的に抽出できない最適化プログラムである textitLayer-Peeled Model を導入する。
このモデルでは,よく訓練されたネットワークの特徴の多くを継承し,ディープラーニング学習の一般的な経験的パターンを説明・予測するための効果的なツールを提供する。
特に,本モデルでは,テキストマイノリティ崩壊(textitMinority Collapse)という,マイノリティクラスにおけるディープラーニングモデルの性能を根本的に制限する未知の現象が明らかにされている。
論文 参考訳(メタデータ) (2021-01-29T17:37:17Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。