論文の概要: Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models
- arxiv url: http://arxiv.org/abs/2510.09423v1
- Date: Fri, 10 Oct 2025 14:26:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.207934
- Title: Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models
- Title(参考訳): ディープニューラルネットワークと大規模言語モデルにおける重み初期化と変動ダイナミクス
- Authors: Yankun Han,
- Abstract要約: 本稿では,コンパクトなReLU多層パーセプトロンとGPT-2型トランスフォーマの2つの状態に関する理論的・実証的な研究を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.
- Abstract(参考訳): ウェイト初期化は訓練開始時の信号伝搬と勾配流を制御する。
本稿では,コンパクトなReLU多層パーセプトロンとGPT-2型トランスフォーマの2つの状態に関する理論的・実証的な研究を提案する。
第一に、初期標準偏差マップの対数的網羅により、規則が消えて爆発し、標準偏差が1e-2から1e-1の間の広い安定帯域が特定される。
第二に、制御された比較は、カイミング(ファンイン)の初期化が、ReLUの下でのXavierよりも速く、より安定に収束し、分散保存理論と一致することを示している。
第3に,12層GPT-2型モデルにおいて,深層層が徐々に変化するにつれて,浅い層が急速に拡大し,より深い層が徐々に変化するのに対して,深層依存性の偏りを事前に学習し,観測することで,Q/K/Vの重み分散を階層的に追跡する。
これらの結果は、古典的な初期化原理と現代のトランスフォーマーの振る舞いを結びつけるとともに、堅牢なトレーニングのためのシンプルで実践的なレシピを生み出す。
関連論文リスト
- Two failure modes of deep transformers and how to avoid them: a unified theory of signal propagation at initialisation [8.973965016201822]
ニューラルネットワークの適切な初期化を見つけることは、スムーズなトレーニングと優れたパフォーマンスを保証するために不可欠である。
トランスフォーマーでは、間違った初期化は、ランク崩壊、すべてのトークンが同様の表現に崩壊するランク崩壊、エントロピー崩壊、高度に集中した注意スコアが不安定になる2つの失敗モードの1つにつながる可能性がある。
ここでは、自己アテンション、層正規化、スキップ接続、勾配を有する深層変圧器による信号伝搬の解析理論を提案する。
論文 参考訳(メタデータ) (2025-05-30T08:18:23Z) - Sinusoidal Initialization, Time for a New Start [0.5242869847419834]
初期化はディープニューラルネットワークトレーニングにおいて重要な役割を担い、収束、安定性、一般化に直接影響を与える。
本稿では,ネットワーク全体の重みの広がりとバランスを改善するために,正弦波関数を用いて構造的重み行列を構築する新しい決定論的手法を提案する。
実験の結果,最終検証精度は4.9%,収束速度は20.9%向上した。
論文 参考訳(メタデータ) (2025-05-19T09:45:18Z) - Precise gradient descent training dynamics for finite-width multi-layer neural networks [8.057006406834466]
一般多層ニューラルネットワークにおける勾配降下繰り返しの正確な分布解析を行った。
我々の非漸近状態進化理論は、第一層重みのガウス的ゆらぎと深層重みの集中を捉えている。
論文 参考訳(メタデータ) (2025-05-08T02:19:39Z) - Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。