論文の概要: SGD and Weight Decay Secretly Minimize the Rank of Your Neural Network
- arxiv url: http://arxiv.org/abs/2206.05794v7
- Date: Fri, 18 Oct 2024 21:32:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:14:56.288574
- Title: SGD and Weight Decay Secretly Minimize the Rank of Your Neural Network
- Title(参考訳): ニューラルネットワークのランクを最小化するSGDと軽量化
- Authors: Tomer Galanti, Zachary S. Siegel, Aparna Gupte, Tomaso Poggio,
- Abstract要約: ミニバッチSGDとウェイト崩壊によるトレーニングは、ウェイト行列のランク最小化へのバイアスを引き起こす。
このバイアスは、より小さなバッチサイズ、より高い学習率、より強いウェイト崩壊によってより顕著になる。
このバイアスと一般化の関係を実証的に検討し、テスト性能に限界効果があることを見出した。
- 参考スコア(独自算出の注目度): 8.79431718760617
- License:
- Abstract: We investigate the inherent bias of Stochastic Gradient Descent (SGD) toward learning low-rank weight matrices during the training of deep neural networks. Our results demonstrate that training with mini-batch SGD and weight decay induces a bias toward rank minimization in the weight matrices. Specifically, we show both theoretically and empirically that this bias becomes more pronounced with smaller batch sizes, higher learning rates, or stronger weight decay. Additionally, we predict and empirically confirm that weight decay is essential for this bias to occur. Unlike previous literature, our analysis does not rely on assumptions about the data, convergence, or optimality of the weight matrices, making it applicable to a wide range of neural network architectures of any width or depth. Finally, we empirically explore the connection between this bias and generalization, finding that it has a marginal effect on the test performance.
- Abstract(参考訳): 本研究では,SGD(Stochastic Gradient Descent)の深層ニューラルネットワークのトレーニングにおいて,低ランクの重み行列の学習に対する固有のバイアスについて検討する。
以上の結果から,SGDと体重減少によるトレーニングは,体重行列のランク最小化に偏りをもたらすことが示された。
具体的には、このバイアスがより小さいバッチサイズ、より高い学習率、より強いウェイト崩壊でより顕著になることを示す。
さらに、このバイアスが発生するには重量減衰が不可欠であると予測し、実証的に確認する。
これまでの文献とは異なり、我々の分析は重量行列のデータ、収束、最適性に関する仮定に頼らず、あらゆる幅や深さの幅広いニューラルネットワークアーキテクチャに適用できる。
最後に、このバイアスと一般化の関係を実証的に検討し、テスト性能に限界効果があることを見出した。
関連論文リスト
- Towards Better Generalization: Weight Decay Induces Low-rank Bias for Neural Networks [9.948870430491738]
We study the implicit bias to low-rank weight matrices when training neural network with Weight Decay (WD)。
我々の研究は、WDと組み合わせることで、SGDの強力な一般化性能に関する理論的および実証的な知見を提供する。
論文 参考訳(メタデータ) (2024-10-03T03:36:18Z) - Neural Rank Collapse: Weight Decay and Small Within-Class Variability
Yield Low-Rank Bias [4.829265670567825]
トレーニングネットワークの低ランクバイアスとニューラルネットワークの神経崩壊特性を結びつける,興味深いニューラルネットワークランク崩壊現象の存在を示す。
重み劣化パラメータが大きくなるにつれて、ネットワーク内の各レイヤのランクは、前のレイヤの隠れ空間埋め込みのクラス内変動に比例して減少する。
論文 参考訳(メタデータ) (2024-02-06T13:44:39Z) - Rotational Equilibrium: How Weight Decay Balances Learning Across Neural Networks [33.88586668321127]
本研究は,ディープニューラルネットワークにおける個々のニューロンの更新挙動に重み劣化が及ぼす影響について検討する。
本研究では, 回転を明示的に制御することで, 重量減衰の利点が得られ, 学習率のウォームアップを著しく低減できることを示した。
論文 参考訳(メタデータ) (2023-05-26T19:14:01Z) - Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。
重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。
提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-03-27T03:26:31Z) - Distribution of Classification Margins: Are All Data Equal? [61.16681488656473]
我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを実証的に示す。
結果として生じる"高いキャパシティ"機能のサブセットは、異なるトレーニング実行間で一貫性がない。
論文 参考訳(メタデータ) (2021-07-21T16:41:57Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - FixNorm: Dissecting Weight Decay for Training Deep Neural Networks [7.820667552233989]
本研究では,2つのメカニズムを直接制御するFixNormという新しいトレーニング手法を提案する。
ImageNet分類タスクでは、FixNormによるEfficientNet-B0のトレーニングは77.7%を達成し、元のベースラインを明確なマージンで上回る。
論文 参考訳(メタデータ) (2021-03-29T05:41:56Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Spherical Motion Dynamics: Learning Dynamics of Neural Network with
Normalization, Weight Decay, and SGD [105.99301967452334]
SMD (Spherical Motion Dynamics) と名付けられた, 正規化, 重崩壊 (WD) , SGD (運動量) を伴うニューラルネットワークの学習力学について述べる。
我々は,ImageNet や MSCOCO など様々なコンピュータビジョンタスクにおける仮定と理論的結果を標準設定で検証する。
論文 参考訳(メタデータ) (2020-06-15T14:16:33Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。