論文の概要: Learning Rate Annealing Can Provably Help Generalization, Even for
Convex Problems
- arxiv url: http://arxiv.org/abs/2005.07360v1
- Date: Fri, 15 May 2020 05:16:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 22:17:59.227165
- Title: Learning Rate Annealing Can Provably Help Generalization, Even for
Convex Problems
- Title(参考訳): 凸問題でも学習率アニーリングは一般化に役立つ
- Authors: Preetum Nakkiran
- Abstract要約: 学習率のスケジュールは、現代のニューラルネットワークのパフォーマンスに大きく影響する。
この動作は、単純化された非ネットワークニューラル・ネットワーク・セッティングに存在することを示す。
- 参考スコア(独自算出の注目度): 6.566710660772139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rate schedule can significantly affect generalization performance in
modern neural networks, but the reasons for this are not yet understood.
Li-Wei-Ma (2019) recently proved this behavior can exist in a simplified
non-convex neural-network setting. In this note, we show that this phenomenon
can exist even for convex learning problems -- in particular, linear regression
in 2 dimensions.
We give a toy convex problem where learning rate annealing (large initial
learning rate, followed by small learning rate) can lead gradient descent to
minima with provably better generalization than using a small learning rate
throughout. In our case, this occurs due to a combination of the mismatch
between the test and train loss landscapes, and early-stopping.
- Abstract(参考訳): 学習率のスケジュールは、現代のニューラルネットワークの一般化性能に大きく影響するが、その理由はまだ分かっていない。
Li-Wei-Ma (2019) は、この振舞いが単純化された非凸神経ネットワーク環境に存在することを最近証明した。
本稿では,この現象が凸学習問題,特に2次元の線形回帰に対しても存在することを示す。
学習速度のアニーリング(学習速度が大きくなると、学習速度が小さくなる)が、学習速度の小さいものよりも、最小値への勾配降下を許容できるような、おもちゃの凸問題を与える。
私たちの場合、これはテストと列車の損失状況のミスマッチと早期停止の組み合わせによって起こります。
関連論文リスト
- Understanding the Generalization Benefits of Late Learning Rate Decay [14.471831651042367]
ニューラルネットワークにおけるトレーニングとテスト損失の関係を示す。
本稿では、実際のニューラルネットワークで観測された損失景観を反映した非線形モデルを提案する。
学習率の高い拡張フェーズが、トレーニング損失の最小限の標準解に向けて、我々のモデルを導いてくれることを実証する。
論文 参考訳(メタデータ) (2024-01-21T21:11:09Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Benign Overfitting in Two-layer Convolutional Neural Networks [90.75603889605043]
2層畳み込みニューラルネットワーク(CNN)の訓練における良性過剰適合現象の検討
信号対雑音比が一定の条件を満たすと、勾配降下により訓練された2層CNNが任意に小さな訓練と試験損失を達成できることを示す。
一方、この条件が保たない場合、オーバーフィッティングは有害となり、得られたCNNは一定レベルのテスト損失しか達成できない。
論文 参考訳(メタデータ) (2022-02-14T07:45:51Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z) - Generalization Error of Generalized Linear Models in High Dimensions [25.635225717360466]
任意の非線形性を持つニューラルネットワークを特徴付けるためのフレームワークを提供する。
正規ロジスティック回帰が学習に与える影響を解析する。
また,本モデルでは,特別事例の学習と配布の事例も捉えている。
論文 参考訳(メタデータ) (2020-05-01T02:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。