論文の概要: Depthwise Hyperparameter Transfer in Residual Networks: Dynamics and
Scaling Limit
- arxiv url: http://arxiv.org/abs/2309.16620v1
- Date: Thu, 28 Sep 2023 17:20:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 13:04:57.823726
- Title: Depthwise Hyperparameter Transfer in Residual Networks: Dynamics and
Scaling Limit
- Title(参考訳): 残差ネットワークにおける奥行きハイパーパラメータ転送:ダイナミクスとスケーリング限界
- Authors: Blake Bordelon, Lorenzo Noci, Mufan Bill Li, Boris Hanin, Cengiz
Pehlevan
- Abstract要約: 我々は,畳み込み型ResNetやVision Transformersなどの残余アーキテクチャが,幅と深さにまたがる最適なハイパーパラメータの転送を示すことを示す実験を行った。
ニューラルネットワーク学習力学の動的平均場理論(DMFT)記述の最近の発展から、このResNetsのパラメータ化は、無限幅および無限深度制限で明確に定義された特徴学習を許容することを示す。
- 参考スコア(独自算出の注目度): 48.291961660957384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The cost of hyperparameter tuning in deep learning has been rising with model
sizes, prompting practitioners to find new tuning methods using a proxy of
smaller networks. One such proposal uses $\mu$P parameterized networks, where
the optimal hyperparameters for small width networks transfer to networks with
arbitrarily large width. However, in this scheme, hyperparameters do not
transfer across depths. As a remedy, we study residual networks with a residual
branch scale of $1/\sqrt{\text{depth}}$ in combination with the $\mu$P
parameterization. We provide experiments demonstrating that residual
architectures including convolutional ResNets and Vision Transformers trained
with this parameterization exhibit transfer of optimal hyperparameters across
width and depth on CIFAR-10 and ImageNet. Furthermore, our empirical findings
are supported and motivated by theory. Using recent developments in the
dynamical mean field theory (DMFT) description of neural network learning
dynamics, we show that this parameterization of ResNets admits a well-defined
feature learning joint infinite-width and infinite-depth limit and show
convergence of finite-size network dynamics towards this limit.
- Abstract(参考訳): ディープラーニングにおけるハイパーパラメータチューニングのコストはモデルサイズとともに上昇しており、実践者はより小さなネットワークのプロキシを使って新しいチューニング方法を見つけることができる。
そのような提案の1つは$\mu$Pパラメータ化ネットワークを使用し、小さな幅のネットワークに対して最適なハイパーパラメータが任意に広い幅のネットワークに転送される。
しかし、このスキームでは、ハイパーパラメータは深さを渡らない。
救済策として,1/\sqrt{\text{depth}}$と$\mu$Pパラメータ化を組み合わせた残差分数スケールの残差ネットワークについて検討する。
このパラメータ化で訓練された畳み込みResNetやVision Transformerなどの残余アーキテクチャは、CIFAR-10とImageNet上で幅と深さをまたいだ最適なハイパーパラメータの転送を示す。
さらに,我々の経験的発見は理論によって支持され動機づけられる。
ニューラルネットワーク学習ダイナミクスの動的平均場理論(dmft)記述における最近の発展を用いて、この再ネットのパラメータ化は、無限幅と無限深さの極限をうまく定義した特徴学習を許容し、有限サイズのネットワークダイナミクスの収束を示す。
関連論文リスト
- Do deep neural networks utilize the weight space efficiently? [2.9914612342004503]
TransformersやConvolutional Neural Networks(CNN)といったディープラーニングモデルは、さまざまなドメインに革命をもたらしたが、パラメータ集約的な自然ハマーをリソース制約された設定に配置する。
重み行列の列空間と行空間を利用する新しい概念を導入し、性能を損なうことなくモデルパラメータを大幅に削減する。
私たちのアプローチはBottleneck層とAttention層の両方に適用され、パラメータを効果的に半分にします。
論文 参考訳(メタデータ) (2024-01-26T21:51:49Z) - Tensor Programs VI: Feature Learning in Infinite-Depth Neural Networks [42.14352997147652]
深い残留ネットワーク(resnets)の*depthwise parametrization*の類似分類について検討する。
各ブロックが1つの層しか持たないresnetでは、Depth-$mu$Pと呼ばれる一意な最適パラメトリゼーションを同定する。
We found that Depth-$mu$P can be characterized as maximize feature learning and feature diversity。
論文 参考訳(メタデータ) (2023-10-03T17:50:40Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Field theory for optimal signal propagation in ResNets [1.053373860696675]
残余ネットワークは、フィードフォワードネットワークよりも大幅に訓練性と性能が向上する。
従来の研究では、残枝にスケーリングパラメータを追加することにより、一般化性能がさらに向上した。
我々は、信号伝搬とその残枝のスケーリングへの依存性を研究するために、残枝ネットワークの体系的有限サイズ場理論を導出した。
論文 参考訳(メタデータ) (2023-05-12T18:14:21Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。
本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。
この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文 参考訳(メタデータ) (2022-12-18T08:34:11Z) - Faster Convergence in Deep-Predictive-Coding Networks to Learn Deeper
Representations [12.716429755564821]
DPCN(Deep-Predictive-Coding Network)は、フィードフォワードとフィードバック接続に依存する階層的な生成モデルである。
DPCNの重要な要素は、動的モデルのスパース状態を明らかにする前向きの推論手順である。
我々は,加速近位勾配に基づく実験的および理論的収束性の向上した最適化戦略を提案する。
論文 参考訳(メタデータ) (2021-01-18T02:30:13Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Neural Parameter Allocation Search [57.190693718951316]
ニューラルネットワークのトレーニングには、メモリの量を増やす必要がある。
既存の手法では、ネットワークには多くの同一層があり、一般化に失敗する手作りの共有戦略を利用する。
我々は、任意のパラメータ予算を与えられたニューラルネットワークをトレーニングする新しいタスクであるNPAS(Neural Allocation Search)を紹介する。
NPASは、コンパクトネットワークを創出する低予算体制と、推論FLOPを増大させることなく性能を高めるために、新たな高予算体制の両方をカバーしている。
論文 参考訳(メタデータ) (2020-06-18T15:01:00Z) - Deep Adaptive Inference Networks for Single Image Super-Resolution [72.7304455761067]
シングルイメージ超解像(SISR)は、ディープ畳み込みニューラルネットワーク(CNN)の展開により、近年大きく進歩している。
本稿では,深部SISR(AdaDSR)の適応型推論ネットワークを活用することで,この問題に対処する。
我々のAdaDSRは、SISRモデルをバックボーンとし、画像の特徴とリソース制約を入力として取り、ローカルネットワーク深さのマップを予測する軽量アダプタモジュールを備える。
論文 参考訳(メタデータ) (2020-04-08T10:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。