Fugu-MT 論文翻訳(概要): SGD Noise and Implicit Low-Rank Bias in Deep Neural Networks

論文の概要: SGD Noise and Implicit Low-Rank Bias in Deep Neural Networks

arxiv url: http://arxiv.org/abs/2206.05794v1
Date: Sun, 12 Jun 2022 17:06:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-15 06:22:51.884804
Title: SGD Noise and Implicit Low-Rank Bias in Deep Neural Networks
Title（参考訳）: ディープニューラルネットワークにおけるSGDノイズと暗示低域バイアス
Authors: Tomer Galanti, Tomaso Poggio
Abstract要約: 我々は,SGD(Mini-batch Gradient Descent)と重み減衰を用いた深部ReLUニューラルネットワークの解析を行った。理論的にも経験的にも,SGDを用いてニューラルネットワークをトレーニングする場合,重み行列が小さくなることが示唆された。
参考スコア（独自算出の注目度）: 15.002631341217405
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We analyze deep ReLU neural networks trained with mini-batch Stochastic Gradient Descent (SGD) and weight decay. We study the source of SGD noise and prove that when training with weight decay, the only solutions of SGD at convergence are zero functions. Furthermore, we show, both theoretically and empirically, that when training a neural network using SGD with weight decay and small batch size, the resulting weight matrices are expected to be of small rank. Our analysis relies on a minimal set of assumptions and the neural networks may be arbitrarily wide or deep, and may include residual connections, as well as batch normalization layers.
Abstract（参考訳）: ミニバッチ確率勾配降下(sgd)と重み崩壊で学習した深層reluニューラルネットワークの解析を行った。我々はSGDノイズの源について検討し、重量減衰を伴うトレーニングを行うとき、収束時のSGDの解はゼロ関数であることを示す。さらに,理論上,実験上,重みの減衰とバッチサイズの小さいsgdを用いたニューラルネットワークのトレーニングでは,重み行列のランクが小さいことが期待される。我々の分析は最小限の仮定に依存しており、ニューラルネットワークは任意に幅や深さがあり、残余接続やバッチ正規化層を含む可能性がある。

関連論文リスト

Towards Better Generalization: Weight Decay Induces Low-rank Bias for Neural Networks [9.948870430491738]
We study the implicit bias to low-rank weight matrices when training neural network with Weight Decay (WD)。我々の研究は、WDと組み合わせることで、SGDの強力な一般化性能に関する理論的および実証的な知見を提供する。
論文参考訳（メタデータ） (2024-10-03T03:36:18Z)
From Low Rank Gradient Subspace Stabilization to Low-Rank Weights: Observations, Theories, and Applications [85.17672240603011]
大規模言語モデルにおける重み行列の非一様低ランク特性について検討する。 WeLore(Weight Low-Rank Projection)は、重み圧縮とメモリ効率の微調整を一体化したものである。
論文参考訳（メタデータ） (2024-07-15T21:05:20Z)
Neural Rank Collapse: Weight Decay and Small Within-Class Variability Yield Low-Rank Bias [4.829265670567825]
トレーニングネットワークの低ランクバイアスとニューラルネットワークの神経崩壊特性を結びつける,興味深いニューラルネットワークランク崩壊現象の存在を示す。重み劣化パラメータが大きくなるにつれて、ネットワーク内の各レイヤのランクは、前のレイヤの隠れ空間埋め込みのクラス内変動に比例して減少する。
論文参考訳（メタデータ） (2024-02-06T13:44:39Z)
Rotational Equilibrium: How Weight Decay Balances Learning Across Neural Networks [33.88586668321127]
本研究は,ディープニューラルネットワークにおける個々のニューロンの更新挙動に重み劣化が及ぼす影響について検討する。本研究では, 回転を明示的に制御することで, 重量減衰の利点が得られ, 学習率のウォームアップを著しく低減できることを示した。
論文参考訳（メタデータ） (2023-05-26T19:14:01Z)
Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文参考訳（メタデータ） (2022-03-27T03:26:31Z)
Distribution of Classification Margins: Are All Data Equal? [61.16681488656473]
我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを実証的に示す。結果として生じる"高いキャパシティ"機能のサブセットは、異なるトレーニング実行間で一貫性がない。
論文参考訳（メタデータ） (2021-07-21T16:41:57Z)
Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文参考訳（メタデータ） (2021-06-06T19:08:53Z)
FixNorm: Dissecting Weight Decay for Training Deep Neural Networks [7.820667552233989]
本研究では,2つのメカニズムを直接制御するFixNormという新しいトレーニング手法を提案する。 ImageNet分類タスクでは、FixNormによるEfficientNet-B0のトレーニングは77.7%を達成し、元のベースラインを明確なマージンで上回る。
論文参考訳（メタデータ） (2021-03-29T05:41:56Z)
Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文参考訳（メタデータ） (2020-07-25T13:23:37Z)
Spherical Motion Dynamics: Learning Dynamics of Neural Network with Normalization, Weight Decay, and SGD [105.99301967452334]
SMD (Spherical Motion Dynamics) と名付けられた, 正規化, 重崩壊 (WD) , SGD (運動量) を伴うニューラルネットワークの学習力学について述べる。我々は,ImageNet や MSCOCO など様々なコンピュータビジョンタスクにおける仮定と理論的結果を標準設定で検証する。
論文参考訳（メタデータ） (2020-06-15T14:16:33Z)
Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。 Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文参考訳（メタデータ） (2020-04-20T18:12:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。