論文の概要: Super Consistency of Neural Network Landscapes and Learning Rate Transfer
- arxiv url: http://arxiv.org/abs/2402.17457v2
- Date: Wed, 13 Nov 2024 00:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:08:35.225448
- Title: Super Consistency of Neural Network Landscapes and Learning Rate Transfer
- Title(参考訳): ニューラルネットワークランドスケープの超一貫性と学習速度伝達
- Authors: Lorenzo Noci, Alexandru Meterez, Thomas Hofmann, Antonio Orvieto,
- Abstract要約: 我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
- 参考スコア(独自算出の注目度): 72.54450821671624
- License:
- Abstract: Recently, there has been growing evidence that if the width and depth of a neural network are scaled toward the so-called rich feature learning limit (\mup and its depth extension), then some hyperparameters -- such as the learning rate -- exhibit transfer from small to very large models. From an optimization perspective, this phenomenon is puzzling, as it implies that the loss landscape is consistently similar across very different model sizes. In this work, we study the landscape through the lens of the loss Hessian, with a focus on its largest eigenvalue (i.e. the sharpness), and find that certain spectral properties under $\mu$P are largely independent of the size of the network, and remain consistent as training progresses. We name this property Super Consistency of the landscape. On the other hand, we show that in the Neural Tangent Kernel (NTK) and other scaling regimes, the sharpness exhibits very different dynamics at different scales. But what causes these differences in the sharpness dynamics? Through a connection between the Hessian's and the NTK's spectrum, we argue that the cause lies in the presence (for $\mu$P) or progressive absence (for the NTK scaling) of feature learning. We corroborate our claims with a substantial suite of experiments, covering a wide range of datasets and architectures: from ResNets and Vision Transformers trained on benchmark vision datasets to Transformers-based language models trained on WikiText.
- Abstract(参考訳): 最近では、ニューラルネットワークの幅と深さが、いわゆるリッチな特徴学習限界(\mupとその深さ拡張)に向かってスケールされている場合、学習率などのハイパーパラメータが、小さなモデルから非常に大きなモデルへの転送を示す、という証拠が増えている。
最適化の観点から見ると、この現象は、損失の風景が全く異なるモデルサイズで一貫して似ていることを暗示している。
本研究では、損失ヘッセンのレンズを通して、その最大の固有値(すなわち、鋭さ)に焦点をあてて風景を調査し、$\mu$P以下のスペクトル特性がネットワークの大きさに大きく依存し、トレーニングの進行とともに一貫していることを見出した。
私たちはこの資産を風景のスーパー一貫性と名付けます。
一方、ニューラル・タンジェント・カーネル(NTK)や他のスケーリング・レシエーションでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
しかし、これらのシャープネスのダイナミクスの違いの原因は何でしょうか?
ヘシアンスペクトルとNTKスペクトルの接続を通して、その原因は特徴学習の存在($\mu$P)や進行的欠如(NTKスケーリング)にあると論じる。
ResNetsやVision Transformers、ベンチマークビジョンデータセットでトレーニングされたVision Transformers、WikiTextでトレーニングされたTransformersベースの言語モデルなどです。
関連論文リスト
- Plastic Learning with Deep Fourier Features [42.41137083374963]
プラスチックのアルゴリズムに繋がる基本原理を特定します。
特に, 線形関数近似は, 深部線形ネットワークの特殊な場合と同様に, 可塑性の喪失に悩まされないことを示す理論的結果を提供する。
ディープ・ネットワークは、ディープ・フーリエの機能によって構成され、高度にトレーニング可能であり、学習過程を通じてトレーニング性を維持している。
論文 参考訳(メタデータ) (2024-10-27T23:38:06Z) - The lazy (NTK) and rich ($μ$P) regimes: a gentle tutorial [0.0]
現代の機械学習パラダイムの中心的なテーマは、大規模ニューラルネットワークがさまざまなメトリクスでより良いパフォーマンスを達成することである。
本チュートリアルでは,広義のネットワークを効果的に訓練するためには,自由度が1つしかないという,非厳密だが実証的な事実の導出を行う。
この自由度はトレーニング行動の豊かさを制御します。最小限のネットワークはカーネルマシンのように遅延し、最大でも機能学習を示します。
論文 参考訳(メタデータ) (2024-04-30T17:11:12Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - Frozen Overparameterization: A Double Descent Perspective on Transfer
Learning of Deep Neural Networks [27.17697714584768]
ディープニューラルネットワーク(DNN)の伝達学習の一般化挙動について検討する。
目標トレーニング中のテストエラーの進化は、目標トレーニングデータセットが十分に大きい場合、より顕著な二重降下効果を有することを示す。
また、二重降下現象は、より関連するソースタスクからの転送よりも、関連するソースタスクからの転送をより良くする可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-20T20:26:23Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。