論文の概要: SGD and Weight Decay Provably Induce a Low-Rank Bias in Neural Networks
- arxiv url: http://arxiv.org/abs/2206.05794v4
- Date: Sat, 15 Jul 2023 12:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 00:36:20.083666
- Title: SGD and Weight Decay Provably Induce a Low-Rank Bias in Neural Networks
- Title(参考訳): SGDと軽量化はニューラルネットワークの低ランクバイアスを誘発する
- Authors: Tomer Galanti, Zachary S. Siegel, Aparna Gupte, Tomaso Poggio
- Abstract要約: 本研究では、深部ReLUニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のバイアスを学習し、低ランクの重み行列を学習する。
理論的にも経験的にも、このバイアスはより小さいバッチサイズ、高い学習率、あるいは体重減少の増加によってより顕著であることを示す。
- 参考スコア(独自算出の注目度): 11.29938534830646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the bias of Stochastic Gradient Descent (SGD) to learn low-rank
weight matrices when training deep ReLU neural networks. Our results show that
training neural networks with mini-batch SGD and weight decay causes a bias
towards rank minimization over the weight matrices. Specifically, we show, both
theoretically and empirically, that this bias is more pronounced when using
smaller batch sizes, higher learning rates, or increased weight decay.
Additionally, we predict and observe empirically that weight decay is necessary
to achieve this bias. In addition, we show that in the presence of intermediate
neural collapse, the learned weights are particularly low-rank. Unlike previous
literature, our analysis does not rely on assumptions about the data,
convergence, or optimality of the weight matrices. Furthermore, it applies to a
wide range of neural network architectures of any width or depth. Finally, we
empirically investigate the connection between this bias and generalization,
finding that it has a marginal effect on generalization.
- Abstract(参考訳): 本研究では,SGD(Stochastic Gradient Descent)の偏りを考察し,深部ReLUニューラルネットワークのトレーニングにおいて低ランクの重み行列を学習する。
以上の結果から,SGDと重み劣化によるニューラルネットワークのトレーニングは,重み行列のランク最小化に偏りがあることが示唆された。
具体的には、理論的にも経験的にも、より小さなバッチサイズ、学習率の向上、体重減少の増加などにより、このバイアスはより顕著であることを示す。
さらに、このバイアスを達成するには重量減衰が必要であることを実証的に予測し、観察する。
さらに, 中間的神経崩壊の存在下, 学習重量は特に低ランクであることが示唆された。
従来の文献とは異なり、本解析は重み行列のデータ、収束、最適性に関する仮定には依存しない。
さらに、幅や深さの広い範囲のニューラルネットワークアーキテクチャにも適用される。
最後に,このバイアスと一般化との関係を実証的に検討し,一般化に限界的な影響があることを見いだした。
関連論文リスト
- Towards Better Generalization: Weight Decay Induces Low-rank Bias for Neural Networks [9.948870430491738]
We study the implicit bias to low-rank weight matrices when training neural network with Weight Decay (WD)。
我々の研究は、WDと組み合わせることで、SGDの強力な一般化性能に関する理論的および実証的な知見を提供する。
論文 参考訳(メタデータ) (2024-10-03T03:36:18Z) - Neural Rank Collapse: Weight Decay and Small Within-Class Variability
Yield Low-Rank Bias [4.829265670567825]
トレーニングネットワークの低ランクバイアスとニューラルネットワークの神経崩壊特性を結びつける,興味深いニューラルネットワークランク崩壊現象の存在を示す。
重み劣化パラメータが大きくなるにつれて、ネットワーク内の各レイヤのランクは、前のレイヤの隠れ空間埋め込みのクラス内変動に比例して減少する。
論文 参考訳(メタデータ) (2024-02-06T13:44:39Z) - Rotational Equilibrium: How Weight Decay Balances Learning Across Neural Networks [33.88586668321127]
本研究は,ディープニューラルネットワークにおける個々のニューロンの更新挙動に重み劣化が及ぼす影響について検討する。
本研究では, 回転を明示的に制御することで, 重量減衰の利点が得られ, 学習率のウォームアップを著しく低減できることを示した。
論文 参考訳(メタデータ) (2023-05-26T19:14:01Z) - Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。
重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。
提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-03-27T03:26:31Z) - Distribution of Classification Margins: Are All Data Equal? [61.16681488656473]
我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを実証的に示す。
結果として生じる"高いキャパシティ"機能のサブセットは、異なるトレーニング実行間で一貫性がない。
論文 参考訳(メタデータ) (2021-07-21T16:41:57Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - FixNorm: Dissecting Weight Decay for Training Deep Neural Networks [7.820667552233989]
本研究では,2つのメカニズムを直接制御するFixNormという新しいトレーニング手法を提案する。
ImageNet分類タスクでは、FixNormによるEfficientNet-B0のトレーニングは77.7%を達成し、元のベースラインを明確なマージンで上回る。
論文 参考訳(メタデータ) (2021-03-29T05:41:56Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Spherical Motion Dynamics: Learning Dynamics of Neural Network with
Normalization, Weight Decay, and SGD [105.99301967452334]
SMD (Spherical Motion Dynamics) と名付けられた, 正規化, 重崩壊 (WD) , SGD (運動量) を伴うニューラルネットワークの学習力学について述べる。
我々は,ImageNet や MSCOCO など様々なコンピュータビジョンタスクにおける仮定と理論的結果を標準設定で検証する。
論文 参考訳(メタデータ) (2020-06-15T14:16:33Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。