論文の概要: Tensor Programs VI: Feature Learning in Infinite-Depth Neural Networks
- arxiv url: http://arxiv.org/abs/2310.02244v5
- Date: Thu, 12 Oct 2023 17:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 22:43:49.035462
- Title: Tensor Programs VI: Feature Learning in Infinite-Depth Neural Networks
- Title(参考訳): テンソルプログラムvi:無限深層ニューラルネットワークにおける特徴学習
- Authors: Greg Yang, Dingli Yu, Chen Zhu, Soufiane Hayou
- Abstract要約: 深い残留ネットワーク(resnets)の*depthwise parametrization*の類似分類について検討する。
各ブロックが1つの層しか持たないresnetでは、Depth-$mu$Pと呼ばれる一意な最適パラメトリゼーションを同定する。
We found that Depth-$mu$P can be characterized as maximize feature learning and feature diversity。
- 参考スコア(独自算出の注目度): 42.14352997147652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: By classifying infinite-width neural networks and identifying the *optimal*
limit, Tensor Programs IV and V demonstrated a universal way, called $\mu$P,
for *widthwise hyperparameter transfer*, i.e., predicting optimal
hyperparameters of wide neural networks from narrow ones. Here we investigate
the analogous classification for *depthwise parametrizations* of deep residual
networks (resnets). We classify depthwise parametrizations of block multiplier
and learning rate by their infinite-width-then-depth limits. In resnets where
each block has only one layer, we identify a unique optimal parametrization,
called Depth-$\mu$P that extends $\mu$P and show empirically it admits
depthwise hyperparameter transfer. We identify *feature diversity* as a crucial
factor in deep networks, and Depth-$\mu$P can be characterized as maximizing
both feature learning and feature diversity. Exploiting this, we find that
absolute value, among all homogeneous nonlinearities, maximizes feature
diversity and indeed empirically leads to significantly better performance.
However, if each block is deeper (such as modern transformers), then we find
fundamental limitations in all possible infinite-depth limits of such
parametrizations, which we illustrate both theoretically and empirically on
simple networks as well as Megatron transformer trained on Common Crawl.
- Abstract(参考訳): 無限幅のニューラルネットワークを分類し、 *optimal* 限界を識別することで、テンソルプログラム iv と v は *widthwise hyperparameter transfer* に対して $\mu$p と呼ばれる普遍的な方法、すなわち狭いものから広いニューラルネットワークの最適ハイパーパラメータを予測することを証明した。
ここでは、深い残留ネットワーク(resnets)の*depthwise parametrization*の類似分類について検討する。
我々はブロック乗数と学習率の深さ方向のパラメトリゼーションを、その無限幅とその深度制限によって分類する。
各ブロックが1つの層しか持たないresnetsでは、深さ-$\mu$pと呼ばれる一意な最適パラメトリゼーションを識別し、深さ方向のハイパーパラメータ転送を経験的に示す。
深さ-$\mu$p は、特徴の学習と特徴の多様性の両方を最大化することが特徴である。
これを実行すると、すべての均質な非線形性の中で絶対値が特徴の多様性を最大化し、実際に経験的に性能が著しく向上することがわかった。
しかし、各ブロックがより深い(現代の変圧器のような)場合、そのようなパラメトリゼーションの可能な無限深度制限の基本的な制限を見つけ、これは理論上も経験的にも単純なネットワーク上でも、Common Crawlで訓練されたメガトロン変換器と同様に説明できる。
関連論文リスト
- Local Loss Optimization in the Infinite Width: Stable Parameterization of Predictive Coding Networks and Target Propagation [8.35644084613785]
局所目標の2つの代表的設計に対して、無限幅極限における最大更新パラメータ化(mu$P)を導入する。
深層線形ネットワークを解析した結果,PCの勾配は1次勾配とガウス・ニュートン様勾配の間に介在していることが判明した。
我々は、特定の標準設定において、無限幅制限のPCは、一階勾配とよりよく似た振る舞いをすることを示した。
論文 参考訳(メタデータ) (2024-11-04T11:38:27Z) - Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Depthwise Hyperparameter Transfer in Residual Networks: Dynamics and
Scaling Limit [48.291961660957384]
我々は,畳み込み型ResNetやVision Transformersなどの残余アーキテクチャが,幅と深さにまたがる最適なハイパーパラメータの転送を示すことを示す実験を行った。
ニューラルネットワーク学習力学の動的平均場理論(DMFT)記述の最近の発展から、このResNetsのパラメータ化は、無限幅および無限深度制限で明確に定義された特徴学習を許容することを示す。
論文 参考訳(メタデータ) (2023-09-28T17:20:50Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - ReduNet: A White-box Deep Network from the Principle of Maximizing Rate
Reduction [32.489371527159236]
この研究は、データ圧縮と識別表現の原理から、現代の深層(畳み込み)ネットワークを解釈することを目的とした、妥当な理論フレームワークの提供を試みる。
高次元マルチクラスデータに対して、最適な線形判別表現は、データセット全体と全てのサブセットの平均との符号化速度差を最大化することを示す。
速度減少目標を最適化するための基本的反復的勾配上昇スキームは,現代のディープネットワークの共通特性を共有する多層ディープネットワークであるReduNetに自然に導かれることを示す。
論文 参考訳(メタデータ) (2021-05-21T16:29:57Z) - Feature Learning in Infinite-Width Neural Networks [17.309380337367536]
ニューラルネットワークの標準およびNTKパラメトリゼーションは、特徴を学習できる無限幅制限を認めないことを示す。
本稿では,標準パラメトリゼーションの簡易な修正を提案し,その限界における特徴学習を実現する。
論文 参考訳(メタデータ) (2020-11-30T03:21:05Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - WaveQ: Gradient-Based Deep Quantization of Neural Networks through
Sinusoidal Adaptive Regularization [8.153944203144988]
深部量子化トレーニングのための新しい正弦波正則化SINAREQを提案する。
我々はSINAREQが計算効率と精度のバランスをとる方法を示し、多種多様な深層ネットワークの量子化のための異種ビット幅割り当てを提供する。
論文 参考訳(メタデータ) (2020-02-29T01:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。