Fugu-MT 論文翻訳(概要): Characterizing the Implicit Bias of Regularized SGD in Rank Minimization

論文の概要: Characterizing the Implicit Bias of Regularized SGD in Rank Minimization

arxiv url: http://arxiv.org/abs/2206.05794v6
Date: Thu, 26 Oct 2023 03:20:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-28 06:43:49.717510
Title: Characterizing the Implicit Bias of Regularized SGD in Rank Minimization
Title（参考訳）: ランク最小化における正規化SGDの帰属バイアスの特徴付け
Authors: Tomer Galanti, Zachary S. Siegel, Aparna Gupte, Tomaso Poggio
Abstract要約: ニューラルネットワークをミニバッチSGDでトレーニングすると、重み行列のランク最小化に偏りが生じることを示す。具体的には、このバイアスはより小さいバッチサイズ、高い学習率、あるいは体重減少の増加でより顕著であることを示す。このバイアスと一般化の関係を実証的に研究し、一般化に限界効果があることを見出した。
参考スコア（独自算出の注目度）: 9.607159748020601
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study the bias of Stochastic Gradient Descent (SGD) to learn low-rank weight matrices when training deep neural networks. Our results show that training neural networks with mini-batch SGD and weight decay causes a bias towards rank minimization over the weight matrices. Specifically, we show, both theoretically and empirically, that this bias is more pronounced when using smaller batch sizes, higher learning rates, or increased weight decay. Additionally, we predict and observe empirically that weight decay is necessary to achieve this bias. Unlike previous literature, our analysis does not rely on assumptions about the data, convergence, or optimality of the weight matrices and applies to a wide range of neural network architectures of any width or depth. Finally, we empirically investigate the connection between this bias and generalization, finding that it has a marginal effect on generalization.
Abstract（参考訳）: 本研究では,SGD(Stochastic Gradient Descent)の偏りについて検討し,深層ニューラルネットワークのトレーニングにおいて低ランクの重み行列を学習する。以上の結果から,SGDと重み劣化によるニューラルネットワークのトレーニングは,重み行列のランク最小化に偏りがあることが示唆された。具体的には、理論的にも経験的にも、より小さなバッチサイズ、学習率の向上、体重減少の増加などにより、このバイアスはより顕著であることを示す。さらに、このバイアスを達成するには重量減衰が必要であることを実証的に予測し、観察する。これまでの文献とは異なり、我々の分析は重量行列のデータ、収束、最適性に関する仮定に依存しておらず、幅や深さの広いニューラルネットワークアーキテクチャに適用できる。最後に,このバイアスと一般化との関係を実証的に検討し,一般化に限界的な影響があることを見いだした。

関連論文リスト

Towards Better Generalization: Weight Decay Induces Low-rank Bias for Neural Networks [9.948870430491738]
We study the implicit bias to low-rank weight matrices when training neural network with Weight Decay (WD)。我々の研究は、WDと組み合わせることで、SGDの強力な一般化性能に関する理論的および実証的な知見を提供する。
論文参考訳（メタデータ） (2024-10-03T03:36:18Z)
From Low Rank Gradient Subspace Stabilization to Low-Rank Weights: Observations, Theories, and Applications [85.17672240603011]
大規模言語モデルにおける重み行列の非一様低ランク特性について検討する。 WeLore(Weight Low-Rank Projection)は、重み圧縮とメモリ効率の微調整を一体化したものである。
論文参考訳（メタデータ） (2024-07-15T21:05:20Z)
Neural Rank Collapse: Weight Decay and Small Within-Class Variability Yield Low-Rank Bias [4.829265670567825]
トレーニングネットワークの低ランクバイアスとニューラルネットワークの神経崩壊特性を結びつける,興味深いニューラルネットワークランク崩壊現象の存在を示す。重み劣化パラメータが大きくなるにつれて、ネットワーク内の各レイヤのランクは、前のレイヤの隠れ空間埋め込みのクラス内変動に比例して減少する。
論文参考訳（メタデータ） (2024-02-06T13:44:39Z)
Rotational Equilibrium: How Weight Decay Balances Learning Across Neural Networks [33.88586668321127]
本研究は,ディープニューラルネットワークにおける個々のニューロンの更新挙動に重み劣化が及ぼす影響について検討する。本研究では, 回転を明示的に制御することで, 重量減衰の利点が得られ, 学習率のウォームアップを著しく低減できることを示した。
論文参考訳（メタデータ） (2023-05-26T19:14:01Z)
Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文参考訳（メタデータ） (2022-03-27T03:26:31Z)
Distribution of Classification Margins: Are All Data Equal? [61.16681488656473]
我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを実証的に示す。結果として生じる"高いキャパシティ"機能のサブセットは、異なるトレーニング実行間で一貫性がない。
論文参考訳（メタデータ） (2021-07-21T16:41:57Z)
Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文参考訳（メタデータ） (2021-06-06T19:08:53Z)
FixNorm: Dissecting Weight Decay for Training Deep Neural Networks [7.820667552233989]
本研究では,2つのメカニズムを直接制御するFixNormという新しいトレーニング手法を提案する。 ImageNet分類タスクでは、FixNormによるEfficientNet-B0のトレーニングは77.7%を達成し、元のベースラインを明確なマージンで上回る。
論文参考訳（メタデータ） (2021-03-29T05:41:56Z)
Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文参考訳（メタデータ） (2020-07-25T13:23:37Z)
Spherical Motion Dynamics: Learning Dynamics of Neural Network with Normalization, Weight Decay, and SGD [105.99301967452334]
SMD (Spherical Motion Dynamics) と名付けられた, 正規化, 重崩壊 (WD) , SGD (運動量) を伴うニューラルネットワークの学習力学について述べる。我々は,ImageNet や MSCOCO など様々なコンピュータビジョンタスクにおける仮定と理論的結果を標準設定で検証する。
論文参考訳（メタデータ） (2020-06-15T14:16:33Z)
Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。 Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文参考訳（メタデータ） (2020-04-20T18:12:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。