論文の概要: The Break-Even Point on Optimization Trajectories of Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2002.09572v1
- Date: Fri, 21 Feb 2020 22:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 00:52:48.985345
- Title: The Break-Even Point on Optimization Trajectories of Deep Neural
Networks
- Title(参考訳): 深部ニューラルネットワークの最適化軌道のブレークスルーポイント
- Authors: Stanislaw Jastrzebski, Maciej Szymczak, Stanislav Fort, Devansh Arpit,
Jacek Tabor, Kyunghyun Cho, Krzysztof Geras
- Abstract要約: この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
- 参考スコア(独自算出の注目度): 64.7563588124004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The early phase of training of deep neural networks is critical for their
final performance. In this work, we study how the hyperparameters of stochastic
gradient descent (SGD) used in the early phase of training affect the rest of
the optimization trajectory. We argue for the existence of the "break-even"
point on this trajectory, beyond which the curvature of the loss surface and
noise in the gradient are implicitly regularized by SGD. In particular, we
demonstrate on multiple classification tasks that using a large learning rate
in the initial phase of training reduces the variance of the gradient, and
improves the conditioning of the covariance of gradients. These effects are
beneficial from the optimization perspective and become visible after the
break-even point. Complementing prior work, we also show that using a low
learning rate results in bad conditioning of the loss surface even for a neural
network with batch normalization layers. In short, our work shows that key
properties of the loss surface are strongly influenced by SGD in the early
phase of training. We argue that studying the impact of the identified effects
on generalization is a promising future direction.
- Abstract(参考訳): ディープニューラルネットワークのトレーニングの初期段階は、最終的なパフォーマンスに不可欠である。
本研究では,学習初期の確率勾配降下(SGD)のハイパーパラメータが,他の最適化軌道にどのように影響するかを検討する。
我々は、この軌道上において、損失面の曲率と勾配のノイズがsgdによって暗黙的に正規化されるような「破断点」の存在を議論する。
特に,学習初期における学習率の増大が,勾配の分散を減少させ,勾配の共分散の条件付けを改善することを,複数の分類タスクで示している。
これらの効果は最適化の観点から有益であり、分岐点の後に見えるようになる。
また,先行研究を補完することにより,バッチ正規化層を有するニューラルネットワークにおいても,学習率が低いと損失面の条件が悪化することを示した。
要約すると, 損失面の鍵となる特性は, 訓練の初期段階においてSGDに強く影響されている。
認識された効果が一般化に与える影響を研究することは、将来有望な方向である。
関連論文リスト
- Take A Shortcut Back: Mitigating the Gradient Vanishing for Training Spiking Neural Networks [15.691263438655842]
Spiking Neural Network(SNN)は生物学的にインスパイアされたニューラルネットワーク基盤であり、最近大きな注目を集めている。
SNNの訓練は、発射スパイクプロセスの未定義の勾配のため、直接的に挑戦する。
本論文では,損失から浅い層に直接勾配を伝達する手法を提案する。
論文 参考訳(メタデータ) (2024-01-09T10:54:41Z) - Inference and Interference: The Role of Clipping, Pruning and Loss
Landscapes in Differentially Private Stochastic Gradient Descent [13.27004430044574]
ディファレンシャル・プライベート勾配降下(DP-SGD)は、大規模なニューラルネットワーク上でのトレーニングとテスト性能が劣っていることが知られている。
初期と後期の2つのプロセスの挙動を別々に比較する。
DP-SGDは初期進行が遅いが, 最終結果を決定するのは後期の行動であることがわかった。
論文 参考訳(メタデータ) (2023-11-12T13:31:35Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Early Stage Convergence and Global Convergence of Training Mildly
Parameterized Neural Networks [3.148524502470734]
トレーニングの初期段階において,損失はかなりの量減少し,この減少は急速に進行することを示す。
我々は、ニューロンの活性化パターンを顕微鏡で解析し、勾配のより強力な下界を導出するのに役立つ。
論文 参考訳(メタデータ) (2022-06-05T09:56:50Z) - A Loss Curvature Perspective on Training Instability in Deep Learning [28.70491071044542]
学習力学における損失の曲率の影響を理解するため,多くの分類課題における損失ヘッセンの進化について検討した。
条件付けの観点から,学習率のウォームアップはバッチ正規化と同じくらいのトレーニング安定性を向上できることを示した。
論文 参考訳(メタデータ) (2021-10-08T20:25:48Z) - Gradient Descent on Neural Networks Typically Occurs at the Edge of
Stability [94.4070247697549]
ニューラルネットワークトレーニング対象に対するフルバッチ勾配降下は、安定性のエッジと呼ばれるレジームで動作します。
この体制では、トレーニング損失 Hessian の最大固有値は2/text(ステップサイズ)$ の数値よりすぐ上にあり、トレーニング損失は短い時間スケールで非単調に振る舞うが、長い時間スケールでは一貫して減少する。
論文 参考訳(メタデータ) (2021-02-26T22:08:19Z) - A Flatter Loss for Bias Mitigation in Cross-dataset Facial Age
Estimation [37.107335288543624]
年齢推定ベンチマークのためのクロスデータセットプロトコルを提唱する。
本稿では,ニューラルネットワークのトレーニングに有効な新しい損失関数を提案する。
論文 参考訳(メタデータ) (2020-10-20T15:22:29Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。