論文の概要: Spectral Asymptotics of Neural Network Loss Landscapes: An Exact Decomposition of the Curvature Exponent
- arxiv url: http://arxiv.org/abs/2606.02596v1
- Date: Fri, 22 May 2026 23:31:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-07 20:42:22.575339
- Title: Spectral Asymptotics of Neural Network Loss Landscapes: An Exact Decomposition of the Curvature Exponent
- Title(参考訳): ニューラルネットワークロスランドスケープのスペクトル漸近:曲率指数の厳密な分解
- Authors: Anherutowa Calvo,
- Abstract要約: スペクトルアライメント分解を証明します: $= dlog_k / dlog_k$, ここで $_k$ は Kronecker 因子固有基底と勾配特異方向のアライメントを測定する。
これにより、LayerNorm、残余接続、ソフトマックスヘッドに対する幾何学的な疑問に「なぜ$$は変わるのか?」が減る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The curvature exponent $α$ in $h_k \propto σ_k^α$ -- governing how Hessian eigenvalues scale with gradient singular values -- varies systematically across layer types ($α\approx 2$ for convolutions, $\approx 1$ for transformer attention, $< 1$ for MLP up-projections). Why? We prove the Spectral Alignment Decomposition: $α= 2 + d\logΦ_k / d\logσ_k$, where $Φ_k$ measures alignment between Kronecker factor eigenbases and gradient singular directions. This reduces "why does $α$ vary?" to a geometric question we answer for LayerNorm, residual connections, and softmax heads. The decomposition implies a spectral transfer identity $s = αγ$ linking curvature exponent, effective gradient rank-decay $γ$, and Hessian decay exponent $s$. The identity is algebraic; its empirical content is that $α$ and $γ$, fit on independent data (HVPs vs. SVD), recover $s$ to ~2% median error across 93 layers, five architectures, and three datasets -- with no free parameters. A zeta-function bound on participation ratio shows curvature concentrates onto effectively one direction per layer. As a proof of concept, we derive the architecture-adaptive preconditioner $T(σ;α)$ and show that Spectral Newton -- implementing $T$ in the gradient singular basis -- outperforms AdamW on vision benchmarks where $α\approx 2$.
- Abstract(参考訳): 曲率指数 $α$ in $h_k \propto σ_k^α$ -- ヘッセン固有値を勾配特異値でスケールする方法を規定する - (畳み込みではα\approx 2$、変圧器の注意では$\approx 1$、MLPのアッププロジェクションでは$<1$)。
なぜ?
スペクトルアライメント分解を証明します: $α= 2 + d\log _k / d\logσ_k$ ここでは、Kronecker因子の固有基底と勾配特異方向のアライメントを測定する。
これにより、LayerNorm、残留接続、ソフトマックスヘッドに対する幾何学的な疑問に「なぜ$α$は変化するのか?」が減る。
この分解はスペクトル移動恒等式 $s = αγ$ リンク曲率指数、有効勾配階数-decay $γ$ およびヘッセン崩壊指数 $s$ を意味する。
その実証的な内容は、$α$と$γ$で、独立したデータ(HVPs vs. SVD)に適合し、93層、5つのアーキテクチャ、3つのデータセットにまたがる中央値エラーを復元する。
参加比に束縛されたゼータ関数は、曲率を1層当たりの有効一方向に集中させることを示す。
概念の証明として、アーキテクチャ適応型プレコンディショナー$T(σ;α)$を導出し、スペクトルニュートン -- 勾配特異点ベースで$T$を実装した -- が、$α\approx 2$のビジョンベンチマークにおいてAdamWより優れていることを示す。
関連論文リスト
- Efficient Mean Curvature Computation on High-Dimensional Data Manifolds [52.452902154360565]
高次元データセットの各点における局所的な平均曲率の推定は、機械学習アルゴリズムの重要な要素である。
本稿では,このコストを桁違いに削減する2つの補完的貢献を紹介する。
実世界のデータセットの実験では、オリジナルの実装と比較して50倍から300倍のスピードアップが確認されている。
論文 参考訳(メタデータ) (2026-06-04T16:04:31Z) - When Does $\ell_2$-Boosting Overfit Benignly? High-Dimensional Risk Asymptotics and the $\ell_1$ Implicit Bias [15.113649527486276]
良性オーバーフィッティングが線形レートで失敗することを示します。
この局所化機構は信号の存在下で持続するべきであるが、正確な信号-雑音分解は未解決の問題である。
論文 参考訳(メタデータ) (2026-05-07T14:14:09Z) - The Spectral Edge Thesis: A Mathematical Framework for Intra-Signal Phase Transitions in Neural Network Training [0.0]
ニューラルネットワークトレーニングにおける位相遷移は,パラメータ更新の回転ウィンドウグラム行列のスペクトルギャップによって制御されることを示す。
adiabatic parameter $mathcalA = |G|_F / (, g2)$ control circuit stability: $mathcalA ll 1$ (plateau), $mathcalA sim 1$ (phase transition), $mathcalA gg 1$ (forgetting)
論文 参考訳(メタデータ) (2026-03-30T20:10:22Z) - Rényi exponent landscape of multipartite entanglement in free-fermion systems [51.56484100374058]
我々は、Rényi tripartite information $I_3() が小フェルミ運動量での質的に $exclusion-dependent scaling を示すことを示した。
I_m(n)/I_m(1) sim zm-1 to 0$ for all integer $n geq 2$, so the leading von Neumann signal can builded from integer Rényi data。
論文 参考訳(メタデータ) (2026-03-09T22:27:00Z) - Closed-form $\ell_r$ norm scaling with data for overparameterized linear regression and diagonal linear networks under $\ell_p$ bias [0.0]
パラメータノルムの族をスケールするために、統一的で高確率な特徴を与える。
次に、降下によって訓練された線形ネットワークについて研究する。
論文 参考訳(メタデータ) (2025-09-25T13:59:22Z) - Learning Orthogonal Multi-Index Models: A Fine-Grained Information Exponent Analysis [54.57279006229212]
情報指数は、オンライン勾配降下のサンプルの複雑さを予測する上で重要な役割を担っている。
本研究では,2次項と高次項の両方を考慮することで,まず2次項を用いて関連する空間を学習できることを示す。
オンラインSGDの全体サンプルと複雑さは$tildeO(d PL-1 )$である。
論文 参考訳(メタデータ) (2024-10-13T00:14:08Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。