論文の概要: Understanding the Generalization Benefits of Late Learning Rate Decay
- arxiv url: http://arxiv.org/abs/2401.11600v1
- Date: Sun, 21 Jan 2024 21:11:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 15:44:27.655569
- Title: Understanding the Generalization Benefits of Late Learning Rate Decay
- Title(参考訳): 遅延学習率低下の一般化効果の理解
- Authors: Yinuo Ren, Chao Ma, Lexing Ying
- Abstract要約: ニューラルネットワークにおけるトレーニングとテスト損失の関係を示す。
本稿では、実際のニューラルネットワークで観測された損失景観を反映した非線形モデルを提案する。
学習率の高い拡張フェーズが、トレーニング損失の最小限の標準解に向けて、我々のモデルを導いてくれることを実証する。
- 参考スコア(独自算出の注目度): 14.471831651042367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Why do neural networks trained with large learning rates for a longer time
often lead to better generalization? In this paper, we delve into this question
by examining the relation between training and testing loss in neural networks.
Through visualization of these losses, we note that the training trajectory
with a large learning rate navigates through the minima manifold of the
training loss, finally nearing the neighborhood of the testing loss minimum.
Motivated by these findings, we introduce a nonlinear model whose loss
landscapes mirror those observed for real neural networks. Upon investigating
the training process using SGD on our model, we demonstrate that an extended
phase with a large learning rate steers our model towards the minimum norm
solution of the training loss, which may achieve near-optimal generalization,
thereby affirming the empirically observed benefits of late learning rate
decay.
- Abstract(参考訳): なぜニューラルネットワークは、長期間にわたって大きな学習率で訓練されているのか?
本稿では,ニューラルネットワークにおけるトレーニングとテスト損失の関係について考察する。
これらの損失を可視化することで,学習率が大きいトレーニング軌道がトレーニング損失の最小多様体をナビゲートし,最終的にテスト損失最小近傍に近づくことに注意する。
これらの知見に触発されて、実際のニューラルネットワークで観測された損失景観を反映した非線形モデルを導入する。
モデル上でSGDを用いた学習過程を調べた結果,学習率の大きな拡張段階が,学習損失の最小限の標準解へと移行し,ほぼ最適の一般化を実現し,遅延学習率の減衰による経験的に観察されたメリットを実証した。
関連論文リスト
- Simplicity bias and optimization threshold in two-layer ReLU networks [24.43739371803548]
過度なパラメータ化にもかかわらず、ネットワークはトレーニングデータを補間するのではなく、より単純な解へと収束することを示す。
我々の分析は、ニューロンが特定の方向に向かっているいわゆる早期アライメントフェーズに依存しています。
論文 参考訳(メタデータ) (2024-10-03T09:58:57Z) - Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free
Ensembles of DNNs [9.010643838773477]
本稿では,検証データ上での深層モデルの忘れ度をモニタする,過剰適合度定量化のための新しいスコアを提案する。
オーバーフィットは検証精度を低下させることなく発生しうることを示し,従来よりも一般的である可能性が示唆された。
我々は,1つのネットワークのトレーニング履歴のみに基づいて,新たなアンサンブル法を構築するために,我々の観測結果を用いて,トレーニング時間に追加のコストを要さず,大幅な改善を実現する。
論文 参考訳(メタデータ) (2023-10-17T09:22:22Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Last Layer Re-Training is Sufficient for Robustness to Spurious
Correlations [51.552870594221865]
最後の層再トレーニングは,突発的な相関ベンチマークにおいて,最先端の手法と一致するか,あるいは性能的に優れていることを示す。
また,大規模な画像ネット学習モデルにおける最終層の再トレーニングにより,背景情報やテクスチャ情報への依存を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-06T16:55:41Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - On the Robustness of Pretraining and Self-Supervision for a Deep
Learning-based Analysis of Diabetic Retinopathy [70.71457102672545]
糖尿病網膜症における訓練方法の違いによる影響を比較検討した。
本稿では,定量的性能,学習した特徴表現の統計,解釈可能性,画像歪みに対する頑健性など,さまざまな側面について検討する。
以上の結果から,ImageNet事前学習モデルでは,画像歪みに対する性能,一般化,堅牢性が著しく向上していることが示唆された。
論文 参考訳(メタデータ) (2021-06-25T08:32:45Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - On the Generalization Properties of Adversarial Training [21.79888306754263]
本稿では,汎用的対数学習アルゴリズムの一般化性能について検討する。
滑らかさとL1のペナル化がモデルの対向的堅牢性をどのように改善するかを示すために、一連の数値的研究が行われた。
論文 参考訳(メタデータ) (2020-08-15T02:32:09Z) - Retrospective Loss: Looking Back to Improve Training of Deep Neural
Networks [15.329684157845872]
我々は、ディープニューラルネットワークモデルのトレーニングを改善するために、新しい振り返り損失を導入する。
レトロスペクティブの損失を最小限に抑え、タスク固有の損失と共に、現在のトレーニングステップでパラメータ状態を最適なパラメータ状態にプッシュします。
簡単なアイデアではあるが、我々はこの手法を解析し、ドメイン全体にわたる包括的な実験を行う。
論文 参考訳(メタデータ) (2020-06-24T10:16:36Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z) - Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。
また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文 参考訳(メタデータ) (2020-02-26T15:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。