論文の概要: Inductive Bias of Gradient Descent for Exponentially Weight Normalized
Smooth Homogeneous Neural Nets
- arxiv url: http://arxiv.org/abs/2010.12909v2
- Date: Thu, 26 Nov 2020 05:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:16:08.446104
- Title: Inductive Bias of Gradient Descent for Exponentially Weight Normalized
Smooth Homogeneous Neural Nets
- Title(参考訳): 指数重み正規化平滑均質ニューラルネットワークの勾配降下の帰納的バイアス
- Authors: Depen Morwani, Harish G. Ramaswamy
- Abstract要約: 我々は,指数的あるいはクロスエントロピー損失のトレーニングにおいて,重み付き平滑な均質ニューラルネットの勾配降下の誘導バイアスを解析した。
本稿では,EWNを用いた勾配流路が適応学習率の標準ネットワーク上での勾配流と等価であることを示す。
- 参考スコア(独自算出の注目度): 1.7259824817932292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyze the inductive bias of gradient descent for weight normalized
smooth homogeneous neural nets, when trained on exponential or cross-entropy
loss. Our analysis focuses on exponential weight normalization (EWN), which
encourages weight updates along the radial direction. This paper shows that the
gradient flow path with EWN is equivalent to gradient flow on standard networks
with an adaptive learning rate, and hence causes the weights to be updated in a
way that prefers asymptotic relative sparsity. These results can be extended to
hold for gradient descent via an appropriate adaptive learning rate. The
asymptotic convergence rate of the loss in this setting is given by
$\Theta(\frac{1}{t(\log t)^2})$, and is independent of the depth of the
network. We contrast these results with the inductive bias of standard weight
normalization (SWN) and unnormalized architectures, and demonstrate their
implications on synthetic data sets.Experimental results on simple data sets
and architectures support our claim on sparse EWN solutions, even with SGD.
This demonstrates its potential applications in learning prunable neural
networks.
- Abstract(参考訳): 重み正規化平滑な均質ニューラルネットの勾配降下の帰納的バイアスを指数的またはクロスエントロピー損失を訓練した場合に解析する。
本分析では,半径方向に沿った重量の更新を促進する指数的重み正規化(EWN)に焦点を当てた。
本稿では,EWNを用いた勾配流路が適応的な学習速度を持つ標準ネットワーク上での勾配流路と等価であることを示し,漸近的相対空間性を好む方法で重みを更新する。
これらの結果は、適切な適応学習率によって勾配降下を抑えることができる。
この設定における損失の漸近収束率は$\theta(\frac{1}{t(\log t)^2})$であり、ネットワークの深さとは独立である。
これらの結果と標準重量正規化(swn)および非正規化アーキテクチャの帰納的バイアスを比較し,それらの合成データセットへの影響を実証する。
これは、プルナブルニューラルネットワークの学習における潜在的な応用を実証する。
関連論文リスト
- Non-asymptotic Analysis of Biased Adaptive Stochastic Approximation [0.8192907805418583]
偏りのある勾配は滑らかな非函数に対する臨界点に収束することを示す。
適切なチューニングを行うことで,バイアスの効果を低減できることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:17:36Z) - Convergence Analysis for Learning Orthonormal Deep Linear Neural
Networks [27.29463801531576]
本稿では,正規直交深部線形ニューラルネットワークの学習のための収束解析について述べる。
その結果、隠れた層の増加が収束速度にどのように影響するかが明らかになった。
論文 参考訳(メタデータ) (2023-11-24T18:46:54Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - Robust Implicit Regularization via Weight Normalization [5.37610807422229]
重み正規化は、重みが実質的に大規模であっても持続する頑健なバイアスを可能にすることを示す。
実験により, 暗黙バイアスの収束速度とロバスト性の両方の利得は, 重み正規化を用いて劇的に改善されることが示唆された。
論文 参考訳(メタデータ) (2023-05-09T13:38:55Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Vanishing Curvature and the Power of Adaptive Methods in Randomly
Initialized Deep Networks [30.467121747150816]
本稿では,ニューラルネットワークの深部で一般的に発生する,いわゆる消滅勾配現象を再考する。
ネットワーク幅が O(depth) 未満のスケールでは, 消失勾配を回避できないことを示す。
論文 参考訳(メタデータ) (2021-06-07T16:29:59Z) - Scaling Equilibrium Propagation to Deep ConvNets by Drastically Reducing
its Gradient Estimator Bias [65.13042449121411]
実際には、EPによって提供される勾配推定によるネットワークのトレーニングは、MNISTよりも難しい視覚タスクにスケールしない。
有限ヌード法に固有のEPの勾配推定のバイアスがこの現象の原因であることを示す。
これらの手法を適用し、非対称な前方および後方接続を持つアーキテクチャをトレーニングし、13.2%のテストエラーを発生させる。
論文 参考訳(メタデータ) (2020-06-06T09:36:07Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。