論文の概要: The lazy (NTK) and rich ($μ$P) regimes: a gentle tutorial
- arxiv url: http://arxiv.org/abs/2404.19719v2
- Date: Mon, 07 Oct 2024 18:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:29:51.265041
- Title: The lazy (NTK) and rich ($μ$P) regimes: a gentle tutorial
- Title(参考訳): 怠け者(NTK)と金持ち(μ$P) : 穏やかなチュートリアル
- Authors: Dhruva Karkada,
- Abstract要約: 現代の機械学習パラダイムの中心的なテーマは、大規模ニューラルネットワークがさまざまなメトリクスでより良いパフォーマンスを達成することである。
本チュートリアルでは,広義のネットワークを効果的に訓練するためには,自由度が1つしかないという,非厳密だが実証的な事実の導出を行う。
この自由度はトレーニング行動の豊かさを制御します。最小限のネットワークはカーネルマシンのように遅延し、最大でも機能学習を示します。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: A central theme of the modern machine learning paradigm is that larger neural networks achieve better performance on a variety of metrics. Theoretical analyses of these overparameterized models have recently centered around studying very wide neural networks. In this tutorial, we provide a nonrigorous but illustrative derivation of the following fact: in order to train wide networks effectively, there is only one degree of freedom in choosing hyperparameters such as the learning rate and the size of the initial weights. This degree of freedom controls the richness of training behavior: at minimum, the wide network trains lazily like a kernel machine, and at maximum, it exhibits feature learning in the active $\mu$P regime. In this paper, we explain this richness scale, synthesize recent research results into a coherent whole, offer new perspectives and intuitions, and provide empirical evidence supporting our claims. In doing so, we hope to encourage further study of the richness scale, as it may be key to developing a scientific theory of feature learning in practical deep neural networks.
- Abstract(参考訳): 現代の機械学習パラダイムの中心的なテーマは、大規模ニューラルネットワークがさまざまなメトリクスでより良いパフォーマンスを達成することである。
これらの過パラメータ化モデルの理論的解析は、最近、非常に広いニューラルネットワークの研究を中心にしている。
本チュートリアルでは,広帯域ネットワークを効果的に訓練するには,学習速度や初期重量の大きさなどのハイパーパラメータを選択する自由度が1度しかない,という,非厳密だが実証的な事実の導出を行う。
この自由度は、トレーニング行動の豊かさを制御します。最小限のネットワークは、カーネルマシンのように遅延し、最大で、アクティブな$\mu$Pレギュレーションで特徴学習を表示するのです。
本稿では、このリッチネス尺度を説明し、最近の研究結果をコヒーレントな全体へ合成し、新たな視点と直観を提供し、我々の主張を裏付ける実証的な証拠を提供する。
そうすることで、我々は、実用的なディープニューラルネットワークにおける特徴学習の科学的理論を開発する上で鍵となるであろう、リッチネススケールのさらなる研究を奨励したいと考えています。
関連論文リスト
- NEAR: A Training-Free Pre-Estimator of Machine Learning Model Performance [0.0]
我々は、トレーニングなしで最適なニューラルネットワークを特定するために、アクティベーションランク(NEAR)によるゼロコストプロキシネットワーク表現を提案する。
このネットワークスコアとNAS-Bench-101とNATS-Bench-SSS/TSSのモデル精度の最先端相関を実証した。
論文 参考訳(メタデータ) (2024-08-16T14:38:14Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Demystifying Lazy Training of Neural Networks from a Macroscopic Viewpoint [5.9954962391837885]
ニューラルネットワークの勾配勾配勾配ダイナミクスをマクロ的限界レンズを用いて検討する。
我々の研究は、勾配降下がディープニューラルネットワークを高速でトレーニング損失ゼロに駆動できることを明らかにした。
我々のアプローチは、Neural Tangent Kernel(NTK)パラダイムからインスピレーションを得ている。
論文 参考訳(メタデータ) (2024-04-07T08:07:02Z) - Why do Learning Rates Transfer? Reconciling Optimization and Scaling
Limits for Deep Learning [77.82908213345864]
学習速度伝達が$mu$Pとその深さ拡張の下では、トレーニング損失Hessianの最大の固有値がネットワークの幅と深さに大きく依存しているという事実から、経験的証拠が得られている。
ニューラル・タンジェント・カーネル(NTK)体制下では、シャープネスは異なるスケールで非常に異なるダイナミクスを示し、学習速度の伝達を妨げている。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - Joint Feature and Differentiable $ k $-NN Graph Learning using Dirichlet
Energy [103.74640329539389]
特徴選択と識別可能な$k $-NNグラフ学習を同時に行うディープFS法を提案する。
我々は、ニューラルネットワークで$ k $-NNグラフを学習する際の非微分可能性問題に対処するために、最適輸送理論を用いる。
本モデルの有効性を,合成データセットと実世界のデータセットの両方で広範な実験により検証する。
論文 参考訳(メタデータ) (2023-05-21T08:15:55Z) - What Can the Neural Tangent Kernel Tell Us About Adversarial Robustness? [0.0]
ニューラルネットワークとカーネルメソッドを接続する最近の理論の進歩によって得られた分析ツールを用いて、トレーニングされたニューラルネットワークの逆例について研究する。
NTKがいかにして、トレーニングフリーのやり方で敵の例を生成できるかを示し、遅延のやり方で、有限幅のニューラルネットを騙すために移行することを実証する。
論文 参考訳(メタデータ) (2022-10-11T16:11:48Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。