Fugu-MT 論文翻訳(概要): Deep Linear Network Training Dynamics from Random Initialization: Data, Width, Depth, and Hyperparameter Transfer

論文の概要: Deep Linear Network Training Dynamics from Random Initialization: Data, Width, Depth, and Hyperparameter Transfer

arxiv url: http://arxiv.org/abs/2502.02531v2
Date: Wed, 05 Feb 2025 16:35:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-06 14:21:16.515474
Title: Deep Linear Network Training Dynamics from Random Initialization: Data, Width, Depth, and Hyperparameter Transfer
Title（参考訳）: ランダム初期化からのディープリニアネットワークトレーニングダイナミクス:データ、幅、深さ、ハイパーパラメータ転送
Authors: Blake Bordelon, Cengiz Pehlevan,
Abstract要約: 我々は,枝を1/sqrttextdepth$にスケールした場合に無限の深さ制限を可能にする非残留ニューラルネットワークと残留ニューラルネットワークの両方について記述する。本モデルでは, 電力法構造データに対する高速化された電力法則トレーニングのダイナミクスを, 最近の研究で観測されたリッチな状態下で回復することを示す。
参考スコア（独自算出の注目度）: 40.40780546513363
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We theoretically characterize gradient descent dynamics in deep linear networks trained at large width from random initialization and on large quantities of random data. Our theory captures the ``wider is better" effect of mean-field/maximum-update parameterized networks as well as hyperparameter transfer effects, which can be contrasted with the neural-tangent parameterization where optimal learning rates shift with model width. We provide asymptotic descriptions of both non-residual and residual neural networks, the latter of which enables an infinite depth limit when branches are scaled as $1/\sqrt{\text{depth}}$. We also compare training with one-pass stochastic gradient descent to the dynamics when training data are repeated at each iteration. Lastly, we show that this model recovers the accelerated power law training dynamics for power law structured data in the rich regime observed in recent works.
Abstract（参考訳）: 我々は、ランダム初期化と大量のランダムデータに基づいて、広い範囲で訓練された深層線形ネットワークにおける勾配勾配のダイナミクスを理論的に特徴づける。我々の理論は、平均フィールド/最大更新パラメータ化ネットワークとハイパーパラメータ転送効果の「より広い方がよい」効果を捉え、モデル幅に最適な学習速度がシフトするニューラルタンジエントパラメータ化と対比することができる。枝を1/\sqrt{\text{depth}}$にスケールした場合に無限の深さ制限が可能である。また,1回の反復でトレーニングデータを繰り返す場合,1パスの確率勾配勾配を動的に比較した。最後に、このモデルにより、近年の研究で観測されたリッチな状態における電力法構造データに対する高速化された電力法則トレーニングのダイナミクスが復元されることを示す。

関連論文リスト

Optimization Insights into Deep Diagonal Linear Networks [10.395029724463672]
直交ニューラルネットワークのパラメータを推定するための勾配流"アルゴリズム"の暗黙的正規化特性について検討した。我々の主な貢献は、この勾配流がモデル上のミラーフローを動的に誘導することであり、これは問題の特定の解に偏っていることを意味する。
論文参考訳（メタデータ） (2024-12-21T20:23:47Z)
Training Hamiltonian neural networks without backpropagation [0.0]
本稿では,ハミルトニアン系を近似するニューラルネットワークのトレーニングを高速化するバックプロパゲーションフリーアルゴリズムを提案する。従来のハミルトニアンニューラルネットワークよりもCPUの方が100倍以上高速であることを示す。
論文参考訳（メタデータ） (2024-11-26T15:22:30Z)
Feature Learning and Generalization in Deep Networks with Orthogonal Weights [1.7956122940209063]
独立なガウス分布からの数値的な重みを持つディープニューラルネットワークは臨界に調整することができる。これらのネットワークは、ネットワークの深さとともに線形に成長する変動を示す。行列のアンサンブルから得られるタン・アクティベーションと重みを持つ長方形のネットワークが、それに対応する事前アクティベーション・揺らぎを持つことを示す。
論文参考訳（メタデータ） (2023-10-11T18:00:02Z)
Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。 NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文参考訳（メタデータ） (2023-07-27T06:59:46Z)
Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文参考訳（メタデータ） (2022-12-29T20:57:46Z)
The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文参考訳（メタデータ） (2022-12-18T08:34:11Z)
Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文参考訳（メタデータ） (2022-10-13T15:09:54Z)
Training Integrable Parameterizations of Deep Neural Networks in the Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。 2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文参考訳（メタデータ） (2021-10-29T07:53:35Z)
Edge of chaos as a guiding principle for modern neural network training [19.419382003562976]
ニューラルネットワーク学習アルゴリズムにおける様々なハイパーパラメータの役割を秩序-カオス位相図を用いて検討する。特に、広く採用されているFashion-MNISTデータセットに基づいて、完全に解析的なフィードフォワードニューラルネットワークについて検討する。
論文参考訳（メタデータ） (2021-07-20T12:17:55Z)
A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文参考訳（メタデータ） (2020-10-27T17:56:14Z)
Understanding the Effects of Data Parallelism and Sparsity on Neural Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文参考訳（メタデータ） (2020-03-25T10:49:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。