論文の概要: Phase diagram and eigenvalue dynamics of stochastic gradient descent in multilayer neural networks
- arxiv url: http://arxiv.org/abs/2509.01349v1
- Date: Mon, 01 Sep 2025 10:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.649558
- Title: Phase diagram and eigenvalue dynamics of stochastic gradient descent in multilayer neural networks
- Title(参考訳): 多層ニューラルネットワークにおける確率勾配勾配の位相図と固有値ダイナミクス
- Authors: Chanju Park, Biagio Lucini, Gert Aarts,
- Abstract要約: ニューラルネットワークの位相図について検討し、各位相は重み行列の特異なダイナミクスによって特徴づけられる。
勾配降下に対するランゲヴィン方程式を用いて、3つの力学系を効果的に分類できることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hyperparameter tuning is one of the essential steps to guarantee the convergence of machine learning models. We argue that intuition about the optimal choice of hyperparameters for stochastic gradient descent can be obtained by studying a neural network's phase diagram, in which each phase is characterised by distinctive dynamics of the singular values of weight matrices. Taking inspiration from disordered systems, we start from the observation that the loss landscape of a multilayer neural network with mean squared error can be interpreted as a disordered system in feature space, where the learnt features are mapped to soft spin degrees of freedom, the initial variance of the weight matrices is interpreted as the strength of the disorder, and temperature is given by the ratio of the learning rate and the batch size. As the model is trained, three phases can be identified, in which the dynamics of weight matrices is qualitatively different. Employing a Langevin equation for stochastic gradient descent, previously derived using Dyson Brownian motion, we demonstrate that the three dynamical regimes can be classified effectively, providing practical guidance for the choice of hyperparameters of the optimiser.
- Abstract(参考訳): ハイパーパラメータチューニングは、機械学習モデルの収束を保証するための重要なステップの1つである。
確率勾配降下に対するハイパーパラメータの最適選択に関する直観は、各位相が重み行列の特異値の特異なダイナミクスによって特徴づけられるニューラルネットワークの位相図を研究することによって得られると論じる。
乱れたシステムから着想を得て、平均二乗誤差を持つ多層ニューラルネットワークの損失景観を特徴空間における乱れたシステムと解釈し、学習特徴をソフトスピン度にマッピングし、重量行列の初期分散を障害の強度と解釈し、学習速度とバッチサイズとの比で温度を与える。
モデルが訓練されるにつれて、重量行列の力学が質的に異なる3つの位相が特定できる。
ダイソン・ブラウン運動を用いて導いた確率勾配降下に対するランゲヴィン方程式を用いて、3つの力学系を効果的に分類できることを示し、オプティマイザのハイパーパラメータの選択のための実用的なガイダンスを提供する。
関連論文リスト
- Stability properties of gradient flow dynamics for the symmetric low-rank matrix factorization problem [22.648448759446907]
多くの学習課題において,低ランク因子化がビルディングブロックとして機能することを示す。
ダイナミクスの局所的な探索部分に関連する軌跡の形状に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2024-11-24T20:05:10Z) - Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。
我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。
本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文 参考訳(メタデータ) (2024-05-22T17:23:15Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Fluctuation-dissipation Type Theorem in Stochastic Linear Learning [2.8292841621378844]
ゆらぎ散逸定理(英: fluctuation-dissipation theorem, FDT)は、一階微分方程式の単純かつ強力な結果である。
入力ベクトルが学習対象となる線形行列によって出力ベクトルに写像される線形学習力学は、全バッチ勾配降下スキームを勾配降下のものと置き換えるときにランゲヴィン力学を忠実に模倣する検証版を持つ。
我々は,MNIST, CIFAR-10, CIFAR-10などの機械学習データセットにおける線形学習力学の一般化検証とその妥当性を導出する。
論文 参考訳(メタデータ) (2021-06-04T02:54:26Z) - Phase diagram for two-layer ReLU neural networks at infinite-width limit [6.380166265263755]
我々は、2層ReLUニューラルネットワークの位相図を無限幅極限で描画する。
位相図の3つのレギュレーション、すなわち線形レギュレーション、臨界レギュレーション、凝縮レギュレーションを同定する。
線形状態においては、NNトレーニングダイナミクスは指数的損失減衰を持つランダム特徴モデルとほぼ同様の線形である。
凝縮状態において、能動ニューロンがいくつかの異なる向きで凝縮されていることを示す実験を通して、我々は実験を行う。
論文 参考訳(メタデータ) (2020-07-15T06:04:35Z) - Dynamical mean-field theory for stochastic gradient descent in Gaussian
mixture classification [25.898873960635534]
高次元景観を分類する単一層ニューラルネットワークにおける勾配降下(SGD)の閉学習ダイナミクスを解析する。
連続次元勾配流に拡張可能なプロトタイププロセスを定義する。
フルバッチ限界では、標準勾配流を回復する。
論文 参考訳(メタデータ) (2020-06-10T22:49:41Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。