論文の概要: Crafting Heavy-Tails in Weight Matrix Spectrum without Gradient Noise
- arxiv url: http://arxiv.org/abs/2406.04657v2
- Date: Wed, 02 Oct 2024 08:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:18:36.300648
- Title: Crafting Heavy-Tails in Weight Matrix Spectrum without Gradient Noise
- Title(参考訳): グラディエントノイズを伴わない軽量マトリックススペクトルによる重機製作
- Authors: Vignesh Kothapalli, Tianyu Pang, Shenyang Deng, Zongmin Liu, Yaoqing Yang,
- Abstract要約: 現代のディープニューラルネットワーク(NN)のトレーニング戦略は、層重みのヘビーテール(HT)経験スペクトル密度(ESD)を誘導する。
雑音のない2層NNのESDにおける重みの「加工」に関する理論的インフォームド解析を行った。
本研究は,2層NNの一般化を促進する訓練の初期段階において,ESDのバルク+スパイクおよびHT形状における学習速度の役割を強調した。
- 参考スコア(独自算出の注目度): 17.047793750451905
- License:
- Abstract: Training strategies for modern deep neural networks (NNs) tend to induce a heavy-tailed (HT) empirical spectral density (ESD) in the layer weights. While previous efforts have shown that the HT phenomenon correlates with good generalization in large NNs, a theoretical explanation of its occurrence is still lacking. Especially, understanding the conditions which lead to this phenomenon can shed light on the interplay between generalization and weight spectra. Our work aims to bridge this gap by presenting a simple, rich setting to model the emergence of HT ESD. In particular, we present a theory-informed analysis for 'crafting' heavy tails in the ESD of two-layer NNs without any gradient noise. This is the first work to analyze a noise-free setting and incorporate optimizer (GD/Adam) dependent (large) learning rates into the HT ESD analysis. Our results highlight the role of learning rates on the Bulk+Spike and HT shape of the ESDs in the early phase of training, which can facilitate generalization in the two-layer NN. These observations shed light on the behavior of large-scale NNs, albeit in a much simpler setting. Last but not least, we present a novel perspective on the ESD evolution dynamics by analyzing the singular vectors of weight matrices and optimizer updates.
- Abstract(参考訳): 現代のディープニューラルネットワーク(NN)のトレーニング戦略は、層重みのヘビーテール(HT)経験スペクトル密度(ESD)を誘導する傾向がある。
これまでの研究で、HT現象は大きなNNにおいて良い一般化と相関していることが示されているが、その発生に関する理論的説明はいまだに不足している。
特に、この現象に繋がる条件を理解することは、一般化と重みスペクトルの相互作用に光を当てることができる。
私たちの研究は、HT ESDの出現をモデル化するためのシンプルでリッチな設定を提供することによって、このギャップを埋めることを目的としています。
特に、勾配雑音のない2層NNのESDにおける重みの「加工」に関する理論インフォームド解析を提案する。
これは、ノイズフリーな設定を分析し、最適化器(GD/Adam)に依存した学習率をHT ESD分析に組み込む最初の試みである。
本研究は,2層NNの一般化を促進する訓練の初期段階において,ESDのバルク+スパイクおよびHT形状における学習速度の役割を強調した。
これらの観測は、大規模なNNの行動に光を当てた。
最後に、重み行列の特異ベクトルの解析とオプティマイザ更新により、ESD進化力学の新しい視点を示す。
関連論文リスト
- Approaching Deep Learning through the Spectral Dynamics of Weights [41.948042468042374]
重みのスペクトル力学 -- 最適化中の特異値とベクトルの振る舞い -- は、ディープラーニングにおけるいくつかの現象を明確にし、統一する。
ConvNetによる画像分類,UNetsによる画像生成,LSTMによる音声認識,Transformersによる言語モデリングなど,さまざまな実験における最適化における一貫したバイアスを同定する。
論文 参考訳(メタデータ) (2024-08-21T17:48:01Z) - Benign Oscillation of Stochastic Gradient Descent with Large Learning
Rates [21.8377731053374]
勾配降下法(SGD)アルゴリズムを用いて学習したニューラルネットワーク(NN)の一般化特性について検討した。
このようなトレーニング体制下では,SGDトレーニングによるNN重みの振動は,NNの一般化に有益であることが判明した。
論文 参考訳(メタデータ) (2023-10-26T00:35:40Z) - Are GATs Out of Balance? [73.2500577189791]
本稿では,ノード近傍のアグリゲーションをパラメータ化注意係数で重み付けするグラフ注意ネットワーク(GAT)について検討する。
我々の主定理は、注意機構を持つ正の同次モデルの学習力学を研究するための足掛かりとなる。
論文 参考訳(メタデータ) (2023-10-11T06:53:05Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Analyzing Sharpness along GD Trajectory: Progressive Sharpening and Edge
of Stability [8.492339290649031]
本稿では,最適化軌道に沿ったGDダイナミックスとシャープネスを解析することを目的とする。
出力層重みのノルムをシャープネスダイナミクスの興味深い指標として実証的に同定する。
本稿では,2層完全連結線形ニューラルネットワークにおけるEOSのシャープネス挙動の理論的証明について述べる。
論文 参考訳(メタデータ) (2022-07-26T06:37:58Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of
DNNs [115.35745188028169]
条件付け解析を深層ニューラルネットワーク(DNN)に拡張し,その学習力学を解明する。
バッチ正規化(BN)はトレーニングを安定させるが、時には局所的な最小値の誤った印象を与える。
我々はBNが最適化問題の階層的条件付けを改善することを実験的に観察した。
論文 参考訳(メタデータ) (2020-02-25T11:40:27Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。