論文の概要: Why do Learning Rates Transfer? Reconciling Optimization and Scaling
Limits for Deep Learning
- arxiv url: http://arxiv.org/abs/2402.17457v1
- Date: Tue, 27 Feb 2024 12:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:22:43.014513
- Title: Why do Learning Rates Transfer? Reconciling Optimization and Scaling
Limits for Deep Learning
- Title(参考訳): 学習率の伝達はなぜか?
ディープラーニングのための最適化とスケーリングの限界
- Authors: Lorenzo Noci, Alexandru Meterez, Thomas Hofmann, Antonio Orvieto
- Abstract要約: 学習速度伝達が$mu$Pとその深さ拡張の下では、トレーニング損失Hessianの最大の固有値がネットワークの幅と深さに大きく依存しているという事実から、経験的証拠が得られている。
ニューラル・タンジェント・カーネル(NTK)体制下では、シャープネスは異なるスケールで非常に異なるダイナミクスを示し、学習速度の伝達を妨げている。
- 参考スコア(独自算出の注目度): 77.82908213345864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been growing evidence that if the width and depth of a
neural network are scaled toward the so-called rich feature learning limit
($\mu$P and its depth extension), then some hyperparameters - such as the
learning rate - exhibit transfer from small to very large models, thus reducing
the cost of hyperparameter tuning. From an optimization perspective, this
phenomenon is puzzling, as it implies that the loss landscape is remarkably
consistent across very different model sizes. In this work, we find empirical
evidence that learning rate transfer can be attributed to the fact that under
$\mu$P and its depth extension, the largest eigenvalue of the training loss
Hessian (i.e. the sharpness) is largely independent of the width and depth of
the network for a sustained period of training time. On the other hand, we show
that under the neural tangent kernel (NTK) regime, the sharpness exhibits very
different dynamics at different scales, thus preventing learning rate transfer.
But what causes these differences in the sharpness dynamics? Through a
connection between the spectra of the Hessian and the NTK matrix, we argue that
the cause lies in the presence (for $\mu$P) or progressive absence (for the NTK
regime) of feature learning, which results in a different evolution of the NTK,
and thus of the sharpness. We corroborate our claims with a substantial suite
of experiments, covering a wide range of datasets and architectures: from
ResNets and Vision Transformers trained on benchmark vision datasets to
Transformers-based language models trained on WikiText
- Abstract(参考訳): 近年、ニューラルネットワークの幅と深さが、いわゆるリッチな特徴学習限界(\mu$Pとその深さ拡張)に向かってスケールされている場合、学習率などのハイパーパラメータは、小さなモデルから非常に大きなモデルへの転送を示すため、ハイパーパラメータチューニングのコストが削減されるという証拠が増えている。
最適化の観点からは、この現象は極めて異なるモデルサイズで、損失ランドスケープが顕著に一致していることを示すため、ファジィである。
本研究は,学習速度伝達が$\mu$Pとその深さ延長の下で,トレーニング損失ヘッセン(すなわち鋭さ)の最大固有値が,ネットワークの幅と深さから持続的なトレーニング期間に大きく依存しているという事実に起因する,実証的な証拠を見出した。
一方,ニューラル・タンジェント・カーネル(ntk)環境下では,シャープネスは異なるスケールで非常に異なるダイナミクスを示し,学習速度の伝達を阻害することを示した。
しかし、なぜシャープネスのダイナミクスに違いが生じるのか?
ヘッセン行列とNTK行列のスペクトルの接続を通して、原因は特徴学習の存在($\mu$P)や進行的不在(NTK体制)にあると論じ、それがNTKの異なる進化をもたらし、鋭さをもたらす。
ベンチマークビジョンデータセットでトレーニングされたresnetsやvision transformersからwikitextでトレーニングされたtransformersベースの言語モデルまで、幅広いデータセットとアーキテクチャをカバーする。
関連論文リスト
- On Learnable Parameters of Optimal and Suboptimal Deep Learning Models [2.889799048595314]
ディープラーニングモデルの構造的および運用的側面について検討する。
本研究は,学習可能なパラメータ(重み)統計,分布,ノード間相互作用,可視化のニュアンスに着目した。
論文 参考訳(メタデータ) (2024-08-21T15:50:37Z) - Beyond Uniform Scaling: Exploring Depth Heterogeneity in Neural
Architectures [9.91972450276408]
本稿では,2次損失景観情報を活用した自動スケーリング手法を提案する。
我々の手法は、現代の視覚変換器におけるメインステイの接続をスキップするために柔軟である。
本稿では,視覚変換器の最初の無傷スケーリング機構について紹介する。
論文 参考訳(メタデータ) (2024-02-19T09:52:45Z) - Unveiling the Unseen: Identifiable Clusters in Trained Depthwise
Convolutional Kernels [56.69755544814834]
深部分離型畳み込みニューラルネットワーク(DS-CNN)の最近の進歩は、新しいアーキテクチャをもたらす。
本稿では,DS-CNNアーキテクチャのもう一つの顕著な特性を明らかにする。
論文 参考訳(メタデータ) (2024-01-25T19:05:53Z) - From Alexnet to Transformers: Measuring the Non-linearity of Deep Neural Networks with Affine Optimal Transport [32.39176908225668]
本稿では,DNNの非線形性シグネチャの概念を紹介する。これはディープニューラルネットワークの非線形性を測定するための,理論上初めての音響解である。
提案した非線形署名の実用性を明らかにするための実験結果について述べる。
論文 参考訳(メタデータ) (2023-10-17T17:50:22Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - FuNNscope: Visual microscope for interactively exploring the loss
landscape of fully connected neural networks [77.34726150561087]
ニューラルネットワークの高次元景観特性を探索する方法を示す。
我々は、小さなニューラルネットワークの観測結果をより複雑なシステムに一般化する。
インタラクティブダッシュボードは、いくつかのアプリケーションネットワークを開放する。
論文 参考訳(メタデータ) (2022-04-09T16:41:53Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z) - Hold me tight! Influence of discriminative features on deep network
boundaries [63.627760598441796]
本稿では,データセットの特徴と,サンプルから決定境界までの距離を関連付ける新しい視点を提案する。
これにより、トレーニングサンプルの位置を慎重に調整し、大規模ビジョンデータセットでトレーニングされたCNNの境界における誘発された変化を測定することができる。
論文 参考訳(メタデータ) (2020-02-15T09:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。