Fugu-MT 論文翻訳(概要): Why do Learning Rates Transfer? Reconciling Optimization and Scaling Limits for Deep Learning

論文の概要: Why do Learning Rates Transfer? Reconciling Optimization and Scaling Limits for Deep Learning

arxiv url: http://arxiv.org/abs/2402.17457v1
Date: Tue, 27 Feb 2024 12:28:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 16:22:43.014513
Title: Why do Learning Rates Transfer? Reconciling Optimization and Scaling Limits for Deep Learning
Title（参考訳）: 学習率の伝達はなぜか? ディープラーニングのための最適化とスケーリングの限界
Authors: Lorenzo Noci, Alexandru Meterez, Thomas Hofmann, Antonio Orvieto
Abstract要約: 学習速度伝達が$mu$Pとその深さ拡張の下では、トレーニング損失Hessianの最大の固有値がネットワークの幅と深さに大きく依存しているという事実から、経験的証拠が得られている。ニューラル・タンジェント・カーネル(NTK)体制下では、シャープネスは異なるスケールで非常に異なるダイナミクスを示し、学習速度の伝達を妨げている。
参考スコア（独自算出の注目度）: 77.82908213345864
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, there has been growing evidence that if the width and depth of a neural network are scaled toward the so-called rich feature learning limit ($\mu$P and its depth extension), then some hyperparameters - such as the learning rate - exhibit transfer from small to very large models, thus reducing the cost of hyperparameter tuning. From an optimization perspective, this phenomenon is puzzling, as it implies that the loss landscape is remarkably consistent across very different model sizes. In this work, we find empirical evidence that learning rate transfer can be attributed to the fact that under $\mu$P and its depth extension, the largest eigenvalue of the training loss Hessian (i.e. the sharpness) is largely independent of the width and depth of the network for a sustained period of training time. On the other hand, we show that under the neural tangent kernel (NTK) regime, the sharpness exhibits very different dynamics at different scales, thus preventing learning rate transfer. But what causes these differences in the sharpness dynamics? Through a connection between the spectra of the Hessian and the NTK matrix, we argue that the cause lies in the presence (for $\mu$P) or progressive absence (for the NTK regime) of feature learning, which results in a different evolution of the NTK, and thus of the sharpness. We corroborate our claims with a substantial suite of experiments, covering a wide range of datasets and architectures: from ResNets and Vision Transformers trained on benchmark vision datasets to Transformers-based language models trained on WikiText
Abstract（参考訳）: 近年、ニューラルネットワークの幅と深さが、いわゆるリッチな特徴学習限界(\mu$Pとその深さ拡張)に向かってスケールされている場合、学習率などのハイパーパラメータは、小さなモデルから非常に大きなモデルへの転送を示すため、ハイパーパラメータチューニングのコストが削減されるという証拠が増えている。最適化の観点からは、この現象は極めて異なるモデルサイズで、損失ランドスケープが顕著に一致していることを示すため、ファジィである。本研究は,学習速度伝達が$\mu$Pとその深さ延長の下で,トレーニング損失ヘッセン(すなわち鋭さ)の最大固有値が,ネットワークの幅と深さから持続的なトレーニング期間に大きく依存しているという事実に起因する,実証的な証拠を見出した。一方,ニューラル・タンジェント・カーネル(ntk)環境下では,シャープネスは異なるスケールで非常に異なるダイナミクスを示し,学習速度の伝達を阻害することを示した。しかし、なぜシャープネスのダイナミクスに違いが生じるのか? ヘッセン行列とNTK行列のスペクトルの接続を通して、原因は特徴学習の存在($\mu$P)や進行的不在(NTK体制)にあると論じ、それがNTKの異なる進化をもたらし、鋭さをもたらす。ベンチマークビジョンデータセットでトレーニングされたresnetsやvision transformersからwikitextでトレーニングされたtransformersベースの言語モデルまで、幅広いデータセットとアーキテクチャをカバーする。

関連論文リスト

Beyond Scaling Curves: Internal Dynamics of Neural Networks Through the NTK Lens [0.5745241788717261]
我々は、ニューラルネットワークがデータの下でどのように振る舞うかを経験的に分析し、ニューラル・タンジェント・カーネル(NTK)のレンズを通してモデルをスケーリングする。我々の標準的な視覚タスクの発見は、内部モデル力学が逆の挙動を示すにもかかわらず、同様のパフォーマンススケーリング指数が生じることを示している。また、無限幅制限への収束が有限幅モデルにおけるスケーリングの挙動にどのように影響するかという未解決のニューラルスケーリング問題にも対処する。
論文参考訳（メタデータ） (2025-07-07T14:17:44Z)
Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。 SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文参考訳（メタデータ） (2025-03-12T17:33:13Z)
On Learnable Parameters of Optimal and Suboptimal Deep Learning Models [2.889799048595314]
ディープラーニングモデルの構造的および運用的側面について検討する。本研究は,学習可能なパラメータ(重み)統計,分布,ノード間相互作用,可視化のニュアンスに着目した。
論文参考訳（メタデータ） (2024-08-21T15:50:37Z)
Beyond Uniform Scaling: Exploring Depth Heterogeneity in Neural Architectures [9.91972450276408]
本稿では,2次損失景観情報を活用した自動スケーリング手法を提案する。我々の手法は、現代の視覚変換器におけるメインステイの接続をスキップするために柔軟である。本稿では,視覚変換器の最初の無傷スケーリング機構について紹介する。
論文参考訳（メタデータ） (2024-02-19T09:52:45Z)
Unveiling the Unseen: Identifiable Clusters in Trained Depthwise Convolutional Kernels [56.69755544814834]
深部分離型畳み込みニューラルネットワーク(DS-CNN)の最近の進歩は、新しいアーキテクチャをもたらす。本稿では,DS-CNNアーキテクチャのもう一つの顕著な特性を明らかにする。
論文参考訳（メタデータ） (2024-01-25T19:05:53Z)
From Alexnet to Transformers: Measuring the Non-linearity of Deep Neural Networks with Affine Optimal Transport [32.39176908225668]
本稿では,DNNの非線形性シグネチャの概念を紹介する。これはディープニューラルネットワークの非線形性を測定するための,理論上初めての音響解である。提案した非線形署名の実用性を明らかにするための実験結果について述べる。
論文参考訳（メタデータ） (2023-10-17T17:50:22Z)
Feature-Learning Networks Are Consistent Across Widths At Realistic Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文参考訳（メタデータ） (2023-05-28T17:09:32Z)
FuNNscope: Visual microscope for interactively exploring the loss landscape of fully connected neural networks [77.34726150561087]
ニューラルネットワークの高次元景観特性を探索する方法を示す。我々は、小さなニューラルネットワークの観測結果をより複雑なシステムに一般化する。インタラクティブダッシュボードは、いくつかのアプリケーションネットワークを開放する。
論文参考訳（メタデータ） (2022-04-09T16:41:53Z)
Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか? 例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文参考訳（メタデータ） (2021-08-19T17:27:03Z)
The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文参考訳（メタデータ） (2020-03-04T17:52:48Z)
Hold me tight! Influence of discriminative features on deep network boundaries [63.627760598441796]
本稿では,データセットの特徴と,サンプルから決定境界までの距離を関連付ける新しい視点を提案する。これにより、トレーニングサンプルの位置を慎重に調整し、大規模ビジョンデータセットでトレーニングされたCNNの境界における誘発された変化を測定することができる。
論文参考訳（メタデータ） (2020-02-15T09:29:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。