論文の概要: Optimal Condition for Initialization Variance in Deep Neural Networks: An SGD Dynamics Perspective
- arxiv url: http://arxiv.org/abs/2508.12834v1
- Date: Mon, 18 Aug 2025 11:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.261738
- Title: Optimal Condition for Initialization Variance in Deep Neural Networks: An SGD Dynamics Perspective
- Title(参考訳): 深部ニューラルネットワークにおける初期化変動の最適条件:SGDダイナミクスの視点から
- Authors: Hiroshi Horii, Sothea Has,
- Abstract要約: 勾配降下(SGD)は機械学習(ML)における最も基本的な最適化アルゴリズムの1つである。
この方程式から導かれる準定常分布とクルバック・リーブラー(KL)の発散による初期分布の関係について検討する。
MNISTおよびFashion-MNISTデータセット上で、古典的なSGDを用いて完全に接続されたニューラルネットワークをトレーニングすることにより、理論的結果を実験的に確認する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD), one of the most fundamental optimization algorithms in machine learning (ML), can be recast through a continuous-time approximation as a Fokker-Planck equation for Langevin dynamics, a viewpoint that has motivated many theoretical studies. Within this framework, we study the relationship between the quasi-stationary distribution derived from this equation and the initial distribution through the Kullback-Leibler (KL) divergence. As the quasi-steady-state distribution depends on the expected cost function, the KL divergence eventually reveals the connection between the expected cost function and the initialization distribution. By applying this to deep neural network models (DNNs), we can express the bounds of the expected loss function explicitly in terms of the initialization parameters. Then, by minimizing this bound, we obtain an optimal condition of the initialization variance in the Gaussian case. This result provides a concrete mathematical criterion, rather than a heuristic approach, to select the scale of weight initialization in DNNs. In addition, we experimentally confirm our theoretical results by using the classical SGD to train fully connected neural networks on the MNIST and Fashion-MNIST datasets. The result shows that if the variance of the initialization distribution satisfies our theoretical optimal condition, then the corresponding DNN model always achieves lower final training loss and higher test accuracy than the conventional He-normal initialization. Our work thus supplies a mathematically grounded indicator that guides the choice of initialization variance and clarifies its physical meaning of the dynamics of parameters in DNNs.
- Abstract(参考訳): 確率勾配勾配(SGD)は機械学習(ML)において最も基本的な最適化アルゴリズムの1つであり、多くの理論的研究の動機となったランゲヴィン力学のフォッカー・プランク方程式として連続時間近似を通して再キャストすることができる。
本枠組みでは, この方程式から導出される準定常分布と, クルバック・リーブラー(KL)の発散による初期分布の関係について検討する。
準定常分布は期待コスト関数に依存するため、KL分散は最終的に期待コスト関数と初期化分布との接続を明らかにする。
これをディープニューラルネットワークモデル(DNN)に適用することにより、初期化パラメータの観点から期待される損失関数の境界を明示的に表現することができる。
そして、この境界を最小化することにより、ガウスの場合における初期化分散の最適条件を得る。
この結果は、DNNにおける重量初期化のスケールを選択するためのヒューリスティックアプローチではなく、具体的な数学的基準を提供する。
さらに、従来のSGDを用いてMNISTおよびFashion-MNISTデータセット上で完全に接続されたニューラルネットワークをトレーニングすることにより、理論的結果を実験的に確認する。
その結果,初期化分布のばらつきが我々の理論的最適条件を満たす場合,対応するDNNモデルは常に従来のHe正規初期化よりも低い最終トレーニング損失と高いテスト精度を達成することがわかった。
そこで本研究は,DNNにおけるパラメータの力学の物理的意味を解明し,初期化分散の選択を導く数学的根拠付き指標を提供する。
関連論文リスト
- When the Left Foot Leads to the Right Path: Bridging Initial Prejudice and Trainability [0.07767214588770123]
平均場解析(MF)は、ランダムネットワークにおけるパラメータ分布が勾配が消滅するか爆発するかを決定することを示した。
訓練されていないDNNでは、入力空間の広い領域が1つのクラスに割り当てられる。
本研究では、IGB理論と過去のMF理論の対応性を確立する理論的証明を導出する。
論文 参考訳(メタデータ) (2025-05-17T17:31:56Z) - Neural variational Data Assimilation with Uncertainty Quantification using SPDE priors [28.804041716140194]
ディープラーニングコミュニティの最近の進歩は、ニューラルネットワークと変分データ同化フレームワークを通じて、この問題に対処することができる。
本研究では、部分微分方程式(SPDE)とガウス過程(GP)の理論を用いて状態の空間的および時間的共分散を推定する。
論文 参考訳(メタデータ) (2024-02-02T19:18:12Z) - Enhancing Data-Assimilation in CFD using Graph Neural Networks [0.0]
本稿では,グラフニューラルネットワーク(GNN)モデルによる随伴最適化に基づく,流体力学に応用されたデータ同化のための新しい機械学習手法を提案する。
我々は,有限要素法(FEM)の解法に基づく直接数値シミュレーションを用いて,GNNモデルと解法の間の2次元のインターフェースにより,GNNの予測をFEM解析の処理後ステップに組み込むことができることを示す。
論文 参考訳(メタデータ) (2023-11-29T19:11:40Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Improving predictions of Bayesian neural nets via local linearization [79.21517734364093]
ガウス・ニュートン近似は基礎となるベイズニューラルネットワーク(BNN)の局所線形化として理解されるべきである。
この線形化モデルを後部推論に使用するので、元のモデルではなく、この修正モデルを使用することも予測すべきである。
この修正された予測を"GLM predictive"と呼び、Laplace近似の共通不適合問題を効果的に解決することを示す。
論文 参考訳(メタデータ) (2020-08-19T12:35:55Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。