論文の概要: Precise Dynamics of Diagonal Linear Networks: A Unifying Analysis by Dynamical Mean-Field Theory
- arxiv url: http://arxiv.org/abs/2510.01930v1
- Date: Thu, 02 Oct 2025 11:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.116968
- Title: Precise Dynamics of Diagonal Linear Networks: A Unifying Analysis by Dynamical Mean-Field Theory
- Title(参考訳): 対角線形ネットワークの精密ダイナミクス:動的平均場理論による統一解析
- Authors: Sota Nishiyama, Masaaki Imaizumi,
- Abstract要約: 対角線ネットワーク(Diagonal linear network,DLN)は、ニューラルネットワークトレーニングにおいていくつかの非自明な振る舞いをキャプチャするトラクタブルモデルである。
DLNの勾配流力学における様々な現象を統一的に解析する。
- 参考スコア(独自算出の注目度): 6.2000582635449994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diagonal linear networks (DLNs) are a tractable model that captures several nontrivial behaviors in neural network training, such as initialization-dependent solutions and incremental learning. These phenomena are typically studied in isolation, leaving the overall dynamics insufficiently understood. In this work, we present a unified analysis of various phenomena in the gradient flow dynamics of DLNs. Using Dynamical Mean-Field Theory (DMFT), we derive a low-dimensional effective process that captures the asymptotic gradient flow dynamics in high dimensions. Analyzing this effective process yields new insights into DLN dynamics, including loss convergence rates and their trade-off with generalization, and systematically reproduces many of the previously observed phenomena. These findings deepen our understanding of DLNs and demonstrate the effectiveness of the DMFT approach in analyzing high-dimensional learning dynamics of neural networks.
- Abstract(参考訳): 対角線ネットワーク(DLN)は、初期化依存ソリューションや漸進学習など、ニューラルネットワークトレーニングにおけるいくつかの非自明な振る舞いをキャプチャする、抽出可能なモデルである。
これらの現象は通常孤立して研究され、全体的な力学は十分に理解されていない。
本研究では,DLNの勾配流力学における様々な現象を統一的に解析する。
動的平均場理論(DMFT)を用いて,高次元の漸近勾配流のダイナミックスを捕捉する低次元有効過程を導出する。
この効果的なプロセスを分析することで、損失収束率や一般化によるトレードオフなどDLNのダイナミクスに関する新たな洞察が得られ、これまで観測された多くの現象を体系的に再現する。
これらの知見は、DLNの理解を深め、ニューラルネットワークの高次元学習力学解析におけるDMFTアプローチの有効性を実証する。
関連論文リスト
- Fractional Spike Differential Equations Neural Network with Efficient Adjoint Parameters Training [63.3991315762955]
スパイキングニューラルネットワーク(SNN)は、生物学的ニューロンからインスピレーションを得て、脳に似た計算の現実的なモデルを作成する。
既存のほとんどのSNNは、マルコフ特性を持つ一階常微分方程式(ODE)によってモデル化された、神経細胞膜電圧ダイナミクスの単一時間定数を仮定している。
本研究では, 膜電圧およびスパイク列車の長期依存性を分数次力学により捉えるフラクタルSPIKE微分方程式ニューラルネットワーク (fspikeDE) を提案する。
論文 参考訳(メタデータ) (2025-07-22T18:20:56Z) - KPFlow: An Operator Perspective on Dynamic Collapse Under Gradient Descent Training of Recurrent Networks [9.512147747894026]
勾配流を2つの作用素を含む積に分解する方法を示す。
それらの相互作用がGDの下での低次元潜在力学にどのように影響するかを示す。
マルチタスクトレーニングでは,各サブタスクの目的がどのように一致しているかを演算子を用いて測定できることが示される。
論文 参考訳(メタデータ) (2025-07-08T20:33:15Z) - Random Matrix Theory for Deep Learning: Beyond Eigenvalues of Linear Models [51.85815025140659]
現代の機械学習(ML)とディープニューラルネットワーク(DNN)は高次元のデータを扱うことが多い。
特に、データ次元、サンプルサイズ、モデルパラメータの数がすべて大きな比例規則は、新しく、時には直感に反する振る舞いを引き起こす。
本稿では、線形モデルの固有値に基づく解析を超えて従来のランダム行列理論(RMT)を拡張し、非線形MLモデルによる課題に対処する。
論文 参考訳(メタデータ) (2025-06-16T06:54:08Z) - An Analytical Characterization of Sloppiness in Neural Networks: Insights from Linear Models [18.99511760351873]
近年の研究では、複数の深層ニューラルネットワークのトレーニング軌道が、驚くほど低次元の「ハイパーリボン様」多様体上で進化することが示されている。
深層ネットワークと線形ネットワークの訓練軌跡の類似性から着想を得て,この現象を後者に対して解析的に特徴付ける。
この低次元多様体の幾何学は, (i) トレーニングデータの入力相関行列の固有値の減衰率, (ii) トレーニング開始時の接地トラスト出力の相対スケール, (iii) 勾配勾配のステップ数によって制御されることを示す。
論文 参考訳(メタデータ) (2025-05-13T19:20:19Z) - High-order expansion of Neural Ordinary Differential Equations flows [4.4569182855550755]
イベントグラデーション上のニューラルODEダイナミクスの厳密な数学的記述を提供する高階微分に基づくフレームワークであるイベントトランジションを紹介する。
本研究は,イベントトリガー型ニューラルディファレンス方程式のより深い理論的基礎と,複雑なシステム力学を説明する数学的構造に寄与する。
論文 参考訳(メタデータ) (2025-04-02T08:57:34Z) - Deep Learning-based Analysis of Basins of Attraction [49.812879456944984]
本研究は,様々な力学系における盆地の複雑さと予測不可能性を特徴づけることの課題に対処する。
主な焦点は、この分野における畳み込みニューラルネットワーク(CNN)の効率性を示すことである。
論文 参考訳(メタデータ) (2023-09-27T15:41:12Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Tractable Dendritic RNNs for Reconstructing Nonlinear Dynamical Systems [7.045072177165241]
線形スプラインベース展開により、片方向線形リカレントニューラルネットワーク(RNN)を増強する。
このアプローチは単純な PLRNN の理論的に魅力的な性質を全て保持するが、相対的に低次元の任意の非線形力学系を近似する能力は向上する。
論文 参考訳(メタデータ) (2022-07-06T09:43:03Z) - Decomposed Linear Dynamical Systems (dLDS) for learning the latent
components of neural dynamics [6.829711787905569]
本稿では,時系列データの非定常および非線形の複雑なダイナミクスを表現した新しい分解力学系モデルを提案する。
我々のモデルは辞書学習によって訓練され、最近の結果を利用してスパースベクトルを時間とともに追跡する。
連続時間と離散時間の両方の指導例において、我々のモデルは元のシステムによく近似できることを示した。
論文 参考訳(メタデータ) (2022-06-07T02:25:38Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。