論文の概要: The Implicit Biases of Stochastic Gradient Descent on Deep Neural
Networks with Batch Normalization
- arxiv url: http://arxiv.org/abs/2102.03497v1
- Date: Sat, 6 Feb 2021 03:40:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 16:04:44.997189
- Title: The Implicit Biases of Stochastic Gradient Descent on Deep Neural
Networks with Batch Normalization
- Title(参考訳): バッチ正規化を伴うディープニューラルネットワークにおける確率勾配勾配の入射バイアス
- Authors: Ziquan Liu, Yufei Cui, Jia Wan, Yu Mao, Antoni B. Chan
- Abstract要約: バッチ正規化(BN-DNN)を伴うディープニューラルネットワークは、その正規化操作のために重み付け再スケーリングには不変である。
BN-DNNにおける勾配降下(SGD)の暗黙バイアスについて検討し,重量減衰の有効性に関する理論的説明を行う。
- 参考スコア(独自算出の注目度): 44.30960913470372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks with batch normalization (BN-DNNs) are invariant to
weight rescaling due to their normalization operations. However, using weight
decay (WD) benefits these weight-scale-invariant networks, which is often
attributed to an increase of the effective learning rate when the weight norms
are decreased. In this paper, we demonstrate the insufficiency of the previous
explanation and investigate the implicit biases of stochastic gradient descent
(SGD) on BN-DNNs to provide a theoretical explanation for the efficacy of
weight decay. We identity two implicit biases of SGD on BN-DNNs: 1) the weight
norms in SGD training remain constant in the continuous-time domain and keep
increasing in the discrete-time domain; 2) SGD optimizes weight vectors in
fully-connected networks or convolution kernels in convolution neural networks
by updating components lying in the input feature span, while leaving those
components orthogonal to the input feature span unchanged. Thus, SGD without WD
accumulates weight noise orthogonal to the input feature span, and cannot
eliminate such noise. Our empirical studies corroborate the hypothesis that
weight decay suppresses weight noise that is left untouched by SGD.
Furthermore, we propose to use weight rescaling (WRS) instead of weight decay
to achieve the same regularization effect, while avoiding performance
degradation of WD on some momentum-based optimizers. Our empirical results on
image recognition show that regardless of optimization methods and network
architectures, training BN-DNNs using WRS achieves similar or better
performance compared with using WD. We also show that training with WRS
generalizes better compared to WD, on other computer vision tasks.
- Abstract(参考訳): バッチ正規化(BN-DNN)を持つディープニューラルネットワークは、正規化操作による重量再スケーリングに不変である。
しかし、重み低下(wd)を用いることは、重みのノルムを減少させる際の効果的な学習率の増加によってしばしば引き起こされる、重みスケール不変ネットワークの恩恵を受ける。
本稿では,前述した説明が不十分であることを示すとともに,bn-dnnsにおける確率的勾配降下(sgd)の暗黙のバイアスを調査し,重量減少の有効性に関する理論的説明を提供する。
BN-DNNにおけるSGDの2つの暗黙バイアスを同定する: 1) SGDトレーニングの重みノルムは、連続時間領域では一定であり、離散時間領域では増加し続ける; 2) SGDは入力特徴の範囲内にあるコンポーネントを更新し、入力特徴に直交するコンポーネントをそのまま残しながら、完全に接続されたネットワークや畳み込みニューラルネットワークにおける重みベクトルを最適化する。
これにより、WDのないSGDは入力特徴幅に直交する重みノイズを蓄積し、そのようなノイズを除去することができない。
我々の実証研究は、重量減衰はSGDが残していない重量雑音を抑制するという仮説を裏付けるものである。
さらに, あるモーメントベースオプティマイザにおけるWDの性能劣化を回避しつつ, 同じ正規化効果を達成するために,ウェイト・リスケーリング(WRS)を用いることを提案する。
画像認識実験の結果,最適化手法やネットワークアーキテクチャによらず,WRSを用いたBN-DNNのトレーニングは,WDと同等あるいは優れた性能を示すことがわかった。
また、他のコンピュータビジョンタスクにおいて、WDと比較してWRSを用いたトレーニングが一般化されていることを示す。
関連論文リスト
- Towards Better Generalization: Weight Decay Induces Low-rank Bias for Neural Networks [9.948870430491738]
We study the implicit bias to low-rank weight matrices when training neural network with Weight Decay (WD)。
我々の研究は、WDと組み合わせることで、SGDの強力な一般化性能に関する理論的および実証的な知見を提供する。
論文 参考訳(メタデータ) (2024-10-03T03:36:18Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - PathProx: A Proximal Gradient Algorithm for Weight Decay Regularized
Deep Neural Networks [25.114642281756495]
ウェイト崩壊(Weight decay)は、ディープラーニングにおいて最も広く使われている正規化形式の一つである。
本稿では、勾配勾配勾配は、この目的に対して非効率なアルゴリズムであると主張している。
ReLUアクティベーションを持つニューラルネットワークの場合、重み劣化対象に対する解は異なる目的の解と等価である。
論文 参考訳(メタデータ) (2022-10-06T17:22:40Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Self-Adaptive Physics-Informed Neural Networks using a Soft Attention Mechanism [1.6114012813668932]
非線形偏微分方程式(PDE)の数値解に対するディープニューラルネットワークの有望な応用として、物理情報ニューラルネットワーク(PINN)が登場した。
そこで本研究では,PINNを適応的にトレーニングする方法として,適応重みを完全にトレーニング可能とし,各トレーニングポイントに個別に適用する手法を提案する。
線形および非線形のベンチマーク問題による数値実験では、SA-PINNはL2エラーにおいて他の最先端のPINNアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-09-07T04:07:52Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。