論文の概要: Super Consistency of Neural Network Landscapes and Learning Rate Transfer
- arxiv url: http://arxiv.org/abs/2402.17457v2
- Date: Wed, 13 Nov 2024 00:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:08:35.225448
- Title: Super Consistency of Neural Network Landscapes and Learning Rate Transfer
- Title(参考訳): ニューラルネットワークランドスケープの超一貫性と学習速度伝達
- Authors: Lorenzo Noci, Alexandru Meterez, Thomas Hofmann, Antonio Orvieto,
- Abstract要約: 我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
- 参考スコア(独自算出の注目度): 72.54450821671624
- License:
- Abstract: Recently, there has been growing evidence that if the width and depth of a neural network are scaled toward the so-called rich feature learning limit (\mup and its depth extension), then some hyperparameters -- such as the learning rate -- exhibit transfer from small to very large models. From an optimization perspective, this phenomenon is puzzling, as it implies that the loss landscape is consistently similar across very different model sizes. In this work, we study the landscape through the lens of the loss Hessian, with a focus on its largest eigenvalue (i.e. the sharpness), and find that certain spectral properties under $\mu$P are largely independent of the size of the network, and remain consistent as training progresses. We name this property Super Consistency of the landscape. On the other hand, we show that in the Neural Tangent Kernel (NTK) and other scaling regimes, the sharpness exhibits very different dynamics at different scales. But what causes these differences in the sharpness dynamics? Through a connection between the Hessian's and the NTK's spectrum, we argue that the cause lies in the presence (for $\mu$P) or progressive absence (for the NTK scaling) of feature learning. We corroborate our claims with a substantial suite of experiments, covering a wide range of datasets and architectures: from ResNets and Vision Transformers trained on benchmark vision datasets to Transformers-based language models trained on WikiText.
- Abstract(参考訳): 最近では、ニューラルネットワークの幅と深さが、いわゆるリッチな特徴学習限界(\mupとその深さ拡張)に向かってスケールされている場合、学習率などのハイパーパラメータが、小さなモデルから非常に大きなモデルへの転送を示す、という証拠が増えている。
最適化の観点から見ると、この現象は、損失の風景が全く異なるモデルサイズで一貫して似ていることを暗示している。
本研究では、損失ヘッセンのレンズを通して、その最大の固有値(すなわち、鋭さ)に焦点をあてて風景を調査し、$\mu$P以下のスペクトル特性がネットワークの大きさに大きく依存し、トレーニングの進行とともに一貫していることを見出した。
私たちはこの資産を風景のスーパー一貫性と名付けます。
一方、ニューラル・タンジェント・カーネル(NTK)や他のスケーリング・レシエーションでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
しかし、これらのシャープネスのダイナミクスの違いの原因は何でしょうか?
ヘシアンスペクトルとNTKスペクトルの接続を通して、その原因は特徴学習の存在($\mu$P)や進行的欠如(NTKスケーリング)にあると論じる。
ResNetsやVision Transformers、ベンチマークビジョンデータセットでトレーニングされたVision Transformers、WikiTextでトレーニングされたTransformersベースの言語モデルなどです。
関連論文リスト
- On Learnable Parameters of Optimal and Suboptimal Deep Learning Models [2.889799048595314]
ディープラーニングモデルの構造的および運用的側面について検討する。
本研究は,学習可能なパラメータ(重み)統計,分布,ノード間相互作用,可視化のニュアンスに着目した。
論文 参考訳(メタデータ) (2024-08-21T15:50:37Z) - Beyond Uniform Scaling: Exploring Depth Heterogeneity in Neural
Architectures [9.91972450276408]
本稿では,2次損失景観情報を活用した自動スケーリング手法を提案する。
我々の手法は、現代の視覚変換器におけるメインステイの接続をスキップするために柔軟である。
本稿では,視覚変換器の最初の無傷スケーリング機構について紹介する。
論文 参考訳(メタデータ) (2024-02-19T09:52:45Z) - Unveiling the Unseen: Identifiable Clusters in Trained Depthwise
Convolutional Kernels [56.69755544814834]
深部分離型畳み込みニューラルネットワーク(DS-CNN)の最近の進歩は、新しいアーキテクチャをもたらす。
本稿では,DS-CNNアーキテクチャのもう一つの顕著な特性を明らかにする。
論文 参考訳(メタデータ) (2024-01-25T19:05:53Z) - From Alexnet to Transformers: Measuring the Non-linearity of Deep Neural Networks with Affine Optimal Transport [32.39176908225668]
本稿では,DNNの非線形性シグネチャの概念を紹介する。これはディープニューラルネットワークの非線形性を測定するための,理論上初めての音響解である。
提案した非線形署名の実用性を明らかにするための実験結果について述べる。
論文 参考訳(メタデータ) (2023-10-17T17:50:22Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - FuNNscope: Visual microscope for interactively exploring the loss
landscape of fully connected neural networks [77.34726150561087]
ニューラルネットワークの高次元景観特性を探索する方法を示す。
我々は、小さなニューラルネットワークの観測結果をより複雑なシステムに一般化する。
インタラクティブダッシュボードは、いくつかのアプリケーションネットワークを開放する。
論文 参考訳(メタデータ) (2022-04-09T16:41:53Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z) - Hold me tight! Influence of discriminative features on deep network
boundaries [63.627760598441796]
本稿では,データセットの特徴と,サンプルから決定境界までの距離を関連付ける新しい視点を提案する。
これにより、トレーニングサンプルの位置を慎重に調整し、大規模ビジョンデータセットでトレーニングされたCNNの境界における誘発された変化を測定することができる。
論文 参考訳(メタデータ) (2020-02-15T09:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。