論文の概要: From SGD to Spectra: A Theory of Neural Network Weight Dynamics
- arxiv url: http://arxiv.org/abs/2507.12709v1
- Date: Thu, 17 Jul 2025 01:06:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.311694
- Title: From SGD to Spectra: A Theory of Neural Network Weight Dynamics
- Title(参考訳): SGDからスペクトルへ:ニューラルネットワークのウェイトダイナミクスの理論
- Authors: Brian Richard Olsen, Sam Fatehmanesh, Frank Xiao, Adarsh Kumarappan, Anirudh Gajula,
- Abstract要約: 深層ニューラルネットワークは機械学習に革命をもたらしたが、そのトレーニングのダイナミクスは理論的には不明だ。
本研究では,SGDの微視的ダイナミクスを重みスペクトルの特異値スペクトルのマクロ的進化に厳密に結合する連続時間行列値微分方程式(SDE)フレームワークを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks have revolutionized machine learning, yet their training dynamics remain theoretically unclear-we develop a continuous-time, matrix-valued stochastic differential equation (SDE) framework that rigorously connects the microscopic dynamics of SGD to the macroscopic evolution of singular-value spectra in weight matrices. We derive exact SDEs showing that squared singular values follow Dyson Brownian motion with eigenvalue repulsion, and characterize stationary distributions as gamma-type densities with power-law tails, providing the first theoretical explanation for the empirically observed 'bulk+tail' spectral structure in trained networks. Through controlled experiments on transformer and MLP architectures, we validate our theoretical predictions and demonstrate quantitative agreement between SDE-based forecasts and observed spectral evolution, providing a rigorous foundation for understanding why deep learning works.
- Abstract(参考訳): 深層ニューラルネットワークは機械学習に革命をもたらしたが、それらのトレーニング力学は理論上は不明確であり、我々はSGDの微視的ダイナミクスと重み行列の特異値スペクトルのマクロ的進化を厳密に結合する連続時間行列値確率微分方程式(SDE)フレームワークを開発した。
我々は、正方形特異値が固有値反発を伴うダイソンブラウン運動に従うことを示す正確なSDEを導出し、定常分布をパワーローテールを持つガンマ型密度として特徴づけ、訓練ネットワークにおいて経験的に観測された「バルク+テール」スペクトル構造に関する最初の理論的説明を与える。
トランスフォーマーとMLPアーキテクチャの制御実験を通じて,SDEに基づく予測とスペクトル進化の定量的一致を検証し,深層学習がなぜ機能するのかを理解するための厳密な基盤を提供する。
関連論文リスト
- Neural Tangent Kernel Analysis to Probe Convergence in Physics-informed Neural Solvers: PIKANs vs. PINNs [0.0]
我々は,ニューラル・タンジェント・カーネル(NTK)理論を用いて,cPIKANの理論的理解を促進することを目的としている。
まず、標準cKANのNTKを教師付き設定で導出し、次に解析を物理インフォームドコンテキストに拡張する。
結果は、標準物理インフォームドニューラルネットワーク(PINN)がキャプチャできない学習力学を公開するcPIKANの文脈において、NTKのトラクタブルな振る舞いを示している。
論文 参考訳(メタデータ) (2025-06-09T17:30:13Z) - Models of Heavy-Tailed Mechanistic Universality [62.107333654304014]
トレーニングニューラルネットワークにおける重み付け行動を引き起こす属性を探索するために,ランダム行列モデルのファミリーを提案する。
このモデルの下では、3つの独立した因子の組み合わせによって、尾翼の電力法則によるスペクトル密度が生じる。
ニューラルネットワークトレーニングの5段階以上において、ニューラルネットワークのスケーリング法則、軌道、および5段階以上の位相を含む重尾の出現に対する我々のモデルの影響について論じる。
論文 参考訳(メタデータ) (2025-06-04T00:55:01Z) - Machine Learning-Enhanced Characterisation of Structured Spectral Densities: Leveraging the Reaction Coordinate Mapping [41.94295877935867]
スペクトル密度は、開量子系におけるシステム-環境相互作用に関する必須情報を符号化する。
反応座標マッピングを用いて,機械学習を利用して重要な環境特徴を再構築する。
ローレンツピークの和として表されるスペクトル密度が構造化された散逸スピンボソンモデルに対し、観測可能なシステムの時間進化はニューラルネットワークによって1、2、3ローレンツピークのスペクトル密度を分類することができることを示す。
論文 参考訳(メタデータ) (2025-01-13T17:02:04Z) - Dyson Brownian motion and random matrix dynamics of weight matrices during learning [0.0]
まず、ダイソン・ブラウン運動を用いて、ダイナミクスを汎用的に記述できることを実証する。
レベルは学習率とミニバッチサイズに比例して示される。
次に,初期化時の固有値に対するマルテンコ・パストゥル分布から学習終了時の付加構造との組合せへの進化に続く変圧器の重み行列ダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-11-20T18:05:39Z) - Approaching Deep Learning through the Spectral Dynamics of Weights [41.948042468042374]
重みのスペクトル力学 -- 最適化中の特異値とベクトルの振る舞い -- は、ディープラーニングにおけるいくつかの現象を明確にし、統一する。
ConvNetによる画像分類,UNetsによる画像生成,LSTMによる音声認識,Transformersによる言語モデリングなど,さまざまな実験における最適化における一貫したバイアスを同定する。
論文 参考訳(メタデータ) (2024-08-21T17:48:01Z) - Gaussian Universality in Neural Network Dynamics with Generalized Structured Input Distributions [2.3020018305241337]
ガウス混合体としてモデル化された入力に基づいて学習したディープラーニングシステムの振る舞いを分析し,より汎用的な入力をシミュレートする。
特定の標準化スキームの下では、入力データがより複雑あるいは実世界の分布に従う場合でも、ディープラーニングモデルはガウス的な設定行動に収束する。
論文 参考訳(メタデータ) (2024-05-01T17:10:55Z) - Fourier Neural Differential Equations for learning Quantum Field
Theories [57.11316818360655]
量子場理論は相互作用ハミルトニアンによって定義され、散乱行列によって実験データにリンクされる。
本稿では,NDEモデルを用いて理論,スカラー・ユーカワ理論,スカラー量子電磁力学を学習する。
理論の相互作用ハミルトニアンは、ネットワークパラメータから抽出することができる。
論文 参考訳(メタデータ) (2023-11-28T22:11:15Z) - Towards Predicting Equilibrium Distributions for Molecular Systems with
Deep Learning [60.02391969049972]
本稿では,分子系の平衡分布を予測するために,分散グラフマー(DiG)と呼ばれる新しいディープラーニングフレームワークを導入する。
DiGはディープニューラルネットワークを用いて分子系の記述子に条件付き平衡分布に単純な分布を変換する。
論文 参考訳(メタデータ) (2023-06-08T17:12:08Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z) - Spherical Motion Dynamics: Learning Dynamics of Neural Network with
Normalization, Weight Decay, and SGD [105.99301967452334]
SMD (Spherical Motion Dynamics) と名付けられた, 正規化, 重崩壊 (WD) , SGD (運動量) を伴うニューラルネットワークの学習力学について述べる。
我々は,ImageNet や MSCOCO など様々なコンピュータビジョンタスクにおける仮定と理論的結果を標準設定で検証する。
論文 参考訳(メタデータ) (2020-06-15T14:16:33Z) - Beyond Random Matrix Theory for Deep Networks [0.7614628596146599]
Wigner semi-circle と Marcenko-Pastur の分布は、しばしばディープニューラルネットワーク理論解析に使用されるが、経験的に観察されたスペクトル密度と一致するかを検討する。
観測されたスペクトル形状は, 外れ値が許容される場合でも, 理論的な予測から大きく逸脱することがわかった。
行列アンサンブルの新しいクラスとして、ランダムなウィグナー/ウィッシュアートアンサンブル生成物とパーコレーションされたウィグナー/ウィッシュアートアンサンブルを考える。
論文 参考訳(メタデータ) (2020-06-13T21:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。