Fugu-MT 論文翻訳(概要): On the Weight Dynamics of Deep Normalized Networks

論文の概要: On the Weight Dynamics of Deep Normalized Networks

arxiv url: http://arxiv.org/abs/2306.00700v2
Date: Thu, 23 May 2024 16:49:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-26 21:22:37.390906
Title: On the Weight Dynamics of Deep Normalized Networks
Title（参考訳）: 深部正規化ネットワークのウェイトダイナミクスについて
Authors: Christian H. X. Ali Mehmeti-Göpel, Michael Wand,
Abstract要約: ディープニューラルネットワークの層間の効果的な学習率(ELR)の相違は、トレーニング容易性に悪影響を及ぼす可能性がある。正規化層を持つネットワークの重み力学をモデル化することにより、これらの相違が時間とともにどのように進化するかを定式化する。一定の学習率のトレーニングでは,初期勾配の爆発にもかかわらず,ELR比が1に収束することが証明された。
参考スコア（独自算出の注目度）: 5.250288418639077
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent studies have shown that high disparities in effective learning rates (ELRs) across layers in deep neural networks can negatively affect trainability. We formalize how these disparities evolve over time by modeling weight dynamics (evolution of expected gradient and weight norms) of networks with normalization layers, predicting the evolution of layer-wise ELR ratios. We prove that when training with any constant learning rate, ELR ratios converge to 1, despite initial gradient explosion. We identify a ``critical learning rate" beyond which ELR disparities widen, which only depends on current ELRs. To validate our findings, we devise a hyper-parameter-free warm-up method that successfully minimizes ELR spread quickly in theory and practice. Our experiments link ELR spread with trainability, a relationship that is most evident in very deep networks with significant gradient magnitude excursions.
Abstract（参考訳）: 近年の研究では、ディープニューラルネットワークの層間での効果的な学習率(ELR)の差がトレーニング可能性に悪影響を及ぼすことが示されている。正規化層を持つネットワークの重み力学(期待勾配と重みノルムの進化)をモデル化し、層ワイドELR比の進化を予測することにより、これらの相違が時間とともにどのように進化するかを定式化する。一定の学習率のトレーニングでは,初期勾配の爆発にもかかわらず,ELR比が1に収束することが証明された。 ELRの格差が広がる「臨界学習率」は、現在のELRにのみ依存する。そこで本研究では,ELRの拡散を迅速に抑えるための超パラメータフリーウォームアップ法を考案した。実験では,ELRの拡散とトレーニング可能性の関係について検討した。

関連論文リスト

Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning [57.3885832382455]
静的ネットワークの疎結合を単独で導入することで,最先端アーキテクチャの高密度化を超えて,さらなるスケーリング可能性を実現することができることを示す。解析の結果,高密度DRLネットワークをネーティブにスケールアップするのとは対照的に,疎ネットワークは高いパラメータ効率とネットワーク表現性を両立させることがわかった。
論文参考訳（メタデータ） (2025-06-20T17:54:24Z)
The Butterfly Effect: Neural Network Training Trajectories Are Highly Sensitive to Initial Conditions [51.68215326304272]
たとえ小さな摂動であっても、同じ訓練軌跡を確実に引き起こすことで、トレーニング時間とともに急速に減少する効果が発散することを示します。この結果から,ニューラルネットワークのトレーニング安定性,微調整,モデルマージ,モデルアンサンブルの多様性の実践的意味が示唆された。
論文参考訳（メタデータ） (2025-06-16T08:35:16Z)
Multiplicative Learning [0.04499833362998487]
本研究では,予測出力に対する観測値の比率に基づいて重みを乗算的に更新する新しい学習手法である期待反射(ER)を導入する。 ERを多層ネットワークに拡張し、画像分類タスクの実行の有効性を示す。
論文参考訳（メタデータ） (2025-03-13T08:14:00Z)
Guiding Two-Layer Neural Network Lipschitzness via Gradient Descent Learning Rate Constraints [7.373617024876726]
経験的リスク最小化における学習率への最終的な減衰の適用は、経験的リスクを妨げないことを示す。一定のステップサイズ勾配GDでトレーニングされたネットワークは、減衰LRでトレーニングされたネットワークと同様の学習特性を示す。これは、標準GDでトレーニングされたニューラルネットワークが、すでに非常に正規的な学習者である可能性を示唆している。
論文参考訳（メタデータ） (2025-02-06T05:43:04Z)
Are GATs Out of Balance? [73.2500577189791]
本稿では,ノード近傍のアグリゲーションをパラメータ化注意係数で重み付けするグラフ注意ネットワーク(GAT)について検討する。我々の主定理は、注意機構を持つ正の同次モデルの学習力学を研究するための足掛かりとなる。
論文参考訳（メタデータ） (2023-10-11T06:53:05Z)
Layer-wise Feedback Propagation [53.00944147633484]
本稿では、ニューラルネットワークのような予測器のための新しいトレーニング手法であるLFP(Layer-wise Feedback Propagation)を提案する。 LFPは、与えられたタスクの解決に対するそれぞれの貢献に基づいて、個々のコネクションに報酬を割り当てる。各種モデルやデータセットの勾配降下に匹敵する性能を達成できることの有効性を実証する。
論文参考訳（メタデータ） (2023-08-23T10:48:28Z)
Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。 NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文参考訳（メタデータ） (2023-07-27T06:59:46Z)
Implicit Stochastic Gradient Descent for Training Physics-informed Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。 PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-03T08:17:47Z)
Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文参考訳（メタデータ） (2022-01-28T07:31:19Z)
Inductive Bias of Gradient Descent for Exponentially Weight Normalized Smooth Homogeneous Neural Nets [1.7259824817932292]
我々は,指数的あるいはクロスエントロピー損失のトレーニングにおいて,重み付き平滑な均質ニューラルネットの勾配降下の誘導バイアスを解析した。本稿では,EWNを用いた勾配流路が適応学習率の標準ネットワーク上での勾配流と等価であることを示す。
論文参考訳（メタデータ） (2020-10-24T14:34:56Z)
Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文参考訳（メタデータ） (2020-05-21T12:53:36Z)
The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文参考訳（メタデータ） (2020-03-04T17:52:48Z)
Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文参考訳（メタデータ） (2020-02-20T15:43:02Z)
Learning the Ising Model with Generative Neural Networks [0.0]
ボルツマンマシン(RBM)と変分オートエンコーダ(VAE)の表現特性について検討する。その結果, RBM と畳み込み VAE は, 磁化, エネルギー, スピンスピン相関の温度依存性を捉えることが可能であることが示唆された。また, VAEの畳み込み層はスピン相関をモデル化するのに重要であるのに対し, RBMは畳み込みフィルタを使わずに類似あるいはさらに優れた性能を実現する。
論文参考訳（メタデータ） (2020-01-15T15:04:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。