論文の概要: Deep Linear Network Training Dynamics from Random Initialization: Data, Width, Depth, and Hyperparameter Transfer
- arxiv url: http://arxiv.org/abs/2502.02531v2
- Date: Wed, 05 Feb 2025 16:35:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:28:16.680045
- Title: Deep Linear Network Training Dynamics from Random Initialization: Data, Width, Depth, and Hyperparameter Transfer
- Title(参考訳): ランダム初期化からのディープリニアネットワークトレーニングダイナミクス:データ、幅、深さ、ハイパーパラメータ転送
- Authors: Blake Bordelon, Cengiz Pehlevan,
- Abstract要約: 我々は,枝を1/sqrttextdepth$にスケールした場合に無限の深さ制限を可能にする非残留ニューラルネットワークと残留ニューラルネットワークの両方について記述する。
本モデルでは, 電力法構造データに対する高速化された電力法則トレーニングのダイナミクスを, 最近の研究で観測されたリッチな状態下で回復することを示す。
- 参考スコア(独自算出の注目度): 40.40780546513363
- License:
- Abstract: We theoretically characterize gradient descent dynamics in deep linear networks trained at large width from random initialization and on large quantities of random data. Our theory captures the ``wider is better" effect of mean-field/maximum-update parameterized networks as well as hyperparameter transfer effects, which can be contrasted with the neural-tangent parameterization where optimal learning rates shift with model width. We provide asymptotic descriptions of both non-residual and residual neural networks, the latter of which enables an infinite depth limit when branches are scaled as $1/\sqrt{\text{depth}}$. We also compare training with one-pass stochastic gradient descent to the dynamics when training data are repeated at each iteration. Lastly, we show that this model recovers the accelerated power law training dynamics for power law structured data in the rich regime observed in recent works.
- Abstract(参考訳): 我々は、ランダム初期化と大量のランダムデータに基づいて、広い範囲で訓練された深層線形ネットワークにおける勾配勾配のダイナミクスを理論的に特徴づける。
我々の理論は、平均フィールド/最大更新パラメータ化ネットワークとハイパーパラメータ転送効果の「より広い方がよい」効果を捉え、モデル幅に最適な学習速度がシフトするニューラルタンジエントパラメータ化と対比することができる。
枝を1/\sqrt{\text{depth}}$にスケールした場合に無限の深さ制限が可能である。
また,1回の反復でトレーニングデータを繰り返す場合,1パスの確率勾配勾配を動的に比較した。
最後に、このモデルにより、近年の研究で観測されたリッチな状態における電力法構造データに対する高速化された電力法則トレーニングのダイナミクスが復元されることを示す。
関連論文リスト
- Training Hamiltonian neural networks without backpropagation [0.0]
本稿では,ハミルトニアン系を近似するニューラルネットワークのトレーニングを高速化するバックプロパゲーションフリーアルゴリズムを提案する。
従来のハミルトニアンニューラルネットワークよりもCPUの方が100倍以上高速であることを示す。
論文 参考訳(メタデータ) (2024-11-26T15:22:30Z) - Analyzing and Improving the Training Dynamics of Diffusion Models [36.37845647984578]
一般的なADM拡散モデルアーキテクチャにおいて、不均一かつ非効率なトレーニングの原因をいくつか特定し、修正する。
この哲学の体系的な応用は、観測されたドリフトと不均衡を排除し、同じ計算複雑性でネットワークをかなり良くする。
論文 参考訳(メタデータ) (2023-12-05T11:55:47Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。
本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。
この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文 参考訳(メタデータ) (2022-12-18T08:34:11Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Edge of chaos as a guiding principle for modern neural network training [19.419382003562976]
ニューラルネットワーク学習アルゴリズムにおける様々なハイパーパラメータの役割を秩序-カオス位相図を用いて検討する。
特に、広く採用されているFashion-MNISTデータセットに基づいて、完全に解析的なフィードフォワードニューラルネットワークについて検討する。
論文 参考訳(メタデータ) (2021-07-20T12:17:55Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。