論文の概要: A Theory of Saddle Escape in Deep Nonlinear Networks
- arxiv url: http://arxiv.org/abs/2605.01288v1
- Date: Sat, 02 May 2026 06:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.684983
- Title: A Theory of Saddle Escape in Deep Nonlinear Networks
- Title(参考訳): 深部非線形ネットワークにおけるサドルエスケープの理論
- Authors: Divit Rawal, Michael R. DeWeese,
- Abstract要約: 層重行列のフロベニウスノルムの不均衡について、スムーズな活性化と微分可能な損失を保った正確な恒等式を導出する。
置換対称部分多様体では、恒等式は近似バランス則と結合し、スカラーODEへの全行列フローを減少させる。
我々の理論と数値シミュレーションの間にはよく一致している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In deep networks with small initialization, training exhibits long plateaus separated by sharp feature-acquisition transitions. Whereas shallow nonlinear networks and deep linear networks are well studied, extending these analyses to deep nonlinear networks remains challenging. We derive an exact identity for the imbalance of Frobenius norms of layer weight matrices that holds for any smooth activation and any differentiable loss and use this to classify activation functions into four universality classes. On the permutation-symmetric submanifold, the identity combines with an approximate balance law to reduce the full matrix flow to a scalar ODE, giving a critical-depth escape time law $τ_\star = Θ(\varepsilon^{-(r-2)})$ governed by the number $r$ of layers at the bottleneck scale rather than the total depth $L$. We find that this same $r-2$ exponent is recovered under He-normal initialization with $r$ bottleneck layers rescaled by $\varepsilon$, where the symmetry manifold is preserved by the flow but not attracting. We find close agreement between our theory and numerical simulations.
- Abstract(参考訳): 小さな初期化を伴うディープネットワークでは、訓練は鋭い特徴獲得遷移によって分離された長い台地を示す。
浅い非線形ネットワークと深い線形ネットワークはよく研究されているが、これらの分析を深い非線形ネットワークに拡張することは依然として困難である。
我々は、任意の滑らかな活性化と微分可能な損失を保った層重行列のフロベニウスノルムの不均衡の正確な恒等式を導出し、これを活性化関数を4つの普遍類に分類するために利用する。
置換対称部分多様体上では、恒等式は近似バランス法則と結合し、全行列フローをスカラーODEに還元し、臨界深度エスケープ時間法則(Critical-Depth escape time law)$τ_\star = >(\varepsilon^{-(r-2)})$を与える。
この$r-2$指数はヘ正規初期化の下で回収され、$r$ボトルネック層は$\varepsilon$で再スケールされる。
我々の理論と数値シミュレーションの間にはよく一致している。
関連論文リスト
- Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Arithmetic-Mean $μ$P for Modern Architectures: A Unified Learning-Rate Scale for CNNs and ResNets [9.94514344279733]
Arithmetic-Mean $mu$P は個々の層ではなく、ネットワーク全体の平均1ステップのプレアクティベーション第2モーメントを一定スケールに制限する。
1次元および2次元の畳み込みネットワークの場合、最大更新学習率は$etastar(L)propto L-3/2$; を満足する。
論文 参考訳(メタデータ) (2025-10-05T19:22:50Z) - Emergence and scaling laws in SGD learning of shallow neural networks [64.48316762675141]
等方性ガウスデータに基づいてP$ニューロンを持つ2層ニューラルネットワークを学習するためのオンライン勾配降下(SGD)の複雑さについて検討した。
平均二乗誤差(MSE)を最小化するために,学生2層ネットワークのトレーニングのためのSGDダイナミックスを高精度に解析する。
論文 参考訳(メタデータ) (2025-04-28T16:58:55Z) - Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets [58.460298576330835]
ResNets と Fully-Connected Nets を相互接続する Leaky ResNets について「有効深度」に依存して検討する。
この直感を利用して、以前の研究で見られるように、ボトルネック構造の出現を説明する。
論文 参考訳(メタデータ) (2024-05-27T18:15:05Z) - Renormalization group for measurement and entanglement phase transitions [0.0]
2つの有効ラグランジアンの再正規化群(RG)の流れを解析する。
ランダムテンソルネットワークの理論は、ランダムフィールドイジングモデルに類似した次元還元特性を持つことを示す。
論文 参考訳(メタデータ) (2023-03-14T12:40:03Z) - The Neural Covariance SDE: Shaped Infinite Depth-and-Width Networks at
Initialization [13.872374586700767]
近年の研究では、ネットワークの深さが大きくなるにつれて活性化関数が形成されることが示されている。
非自明な極限に達するのに必要な活性化関数の正確なスケーリングを特定する。
アクティベーション関数に基づいて,大規模なネットワークの標準を爆発・消滅するためのif-and-only-if条件を回復する。
論文 参考訳(メタデータ) (2022-06-06T17:45:07Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Gradient Descent Optimizes Infinite-Depth ReLU Implicit Networks with
Linear Widths [25.237054775800164]
本稿では非線形ReLU活性化暗黙ネットワークにおける勾配流と勾配勾配の収束について検討する。
GF と GD のどちらも,暗黙的ネットワークの幅$m$ が標本サイズでテキストリニアであれば,線形速度で大域最小値に収束することが証明される。
論文 参考訳(メタデータ) (2022-05-16T06:07:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。