論文の概要: Crafting Heavy-Tails in Weight Matrix Spectrum without Gradient Noise
- arxiv url: http://arxiv.org/abs/2406.04657v1
- Date: Fri, 7 Jun 2024 05:51:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 15:19:38.531206
- Title: Crafting Heavy-Tails in Weight Matrix Spectrum without Gradient Noise
- Title(参考訳): グラディエントノイズを伴わない軽量マトリックススペクトルによる重機製作
- Authors: Vignesh Kothapalli, Tianyu Pang, Shenyang Deng, Zongmin Liu, Yaoqing Yang,
- Abstract要約: ディープニューラルネットワークのトレーニング戦略は、層重みの重み付きスペクトルを誘導する。
HT重量スペクトルを生成するために勾配雑音は不要であることを示す。
HT重量スペクトルは特徴学習から生じるスパイク'から生じる。
- 参考スコア(独自算出の注目度): 17.047793750451905
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern training strategies of deep neural networks (NNs) tend to induce a heavy-tailed (HT) spectra of layer weights. Extensive efforts to study this phenomenon have found that NNs with HT weight spectra tend to generalize well. A prevailing notion for the occurrence of such HT spectra attributes gradient noise during training as a key contributing factor. Our work shows that gradient noise is unnecessary for generating HT weight spectra: two-layer NNs trained with full-batch Gradient Descent/Adam can exhibit HT spectra in their weights after finite training steps. To this end, we first identify the scale of the learning rate at which one step of full-batch Adam can lead to feature learning in the shallow NN, particularly when learning a single index teacher model. Next, we show that multiple optimizer steps with such (sufficiently) large learning rates can transition the bulk of the weight's spectra into an HT distribution. To understand this behavior, we present a novel perspective based on the singular vectors of the weight matrices and optimizer updates. We show that the HT weight spectrum originates from the `spike', which is generated from feature learning and interacts with the main bulk to generate an HT spectrum. Finally, we analyze the correlations between the HT weight spectra and generalization after multiple optimizer updates with varying learning rates.
- Abstract(参考訳): ディープニューラルネットワーク(NN)の現代のトレーニング戦略は、層重みの重み付き(HT)スペクトルを誘導する傾向がある。
この現象を研究するための大規模な研究により、HTスペクトルを持つNNはよく一般化する傾向があることが判明した。
このようなHTスペクトルの発生に関する一般的な概念は、トレーニング中の勾配雑音を重要な寄与要因とみなす。
フルバッチのグラディエントDescent/Adamでトレーニングした2層NNは、有限のトレーニングステップ後にHTスペクトルを表示できる。
そこで本研究では,Adamの一段階が,特に1つの索引教師モデル学習において,浅いNNにおける特徴学習に繋がる学習率の尺度を,まず最初に同定する。
次に,重みのスペクトルの大部分をHT分布に遷移させることで,そのような(十分)大きな学習率を持つ複数のオプティマイザステップを示す。
この振る舞いを理解するために、重み行列の特異ベクトルとオプティマイザ更新に基づく新しい視点を示す。
HTスペクトルは特徴学習から生成され、主バルクと相互作用してHTスペクトルを生成する「スパイク」に由来することを示す。
最後に,複数オプティマイザ更新後のHT重みスペクトルと一般化の相関関係を学習速度で解析する。
関連論文リスト
- Approaching Deep Learning through the Spectral Dynamics of Weights [41.948042468042374]
重みのスペクトル力学 -- 最適化中の特異値とベクトルの振る舞い -- は、ディープラーニングにおけるいくつかの現象を明確にし、統一する。
ConvNetによる画像分類,UNetsによる画像生成,LSTMによる音声認識,Transformersによる言語モデリングなど,さまざまな実験における最適化における一貫したバイアスを同定する。
論文 参考訳(メタデータ) (2024-08-21T17:48:01Z) - Benign Oscillation of Stochastic Gradient Descent with Large Learning
Rates [21.8377731053374]
勾配降下法(SGD)アルゴリズムを用いて学習したニューラルネットワーク(NN)の一般化特性について検討した。
このようなトレーニング体制下では,SGDトレーニングによるNN重みの振動は,NNの一般化に有益であることが判明した。
論文 参考訳(メタデータ) (2023-10-26T00:35:40Z) - Are GATs Out of Balance? [73.2500577189791]
本稿では,ノード近傍のアグリゲーションをパラメータ化注意係数で重み付けするグラフ注意ネットワーク(GAT)について検討する。
我々の主定理は、注意機構を持つ正の同次モデルの学習力学を研究するための足掛かりとなる。
論文 参考訳(メタデータ) (2023-10-11T06:53:05Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Analyzing Sharpness along GD Trajectory: Progressive Sharpening and Edge
of Stability [8.492339290649031]
本稿では,最適化軌道に沿ったGDダイナミックスとシャープネスを解析することを目的とする。
出力層重みのノルムをシャープネスダイナミクスの興味深い指標として実証的に同定する。
本稿では,2層完全連結線形ニューラルネットワークにおけるEOSのシャープネス挙動の理論的証明について述べる。
論文 参考訳(メタデータ) (2022-07-26T06:37:58Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of
DNNs [115.35745188028169]
条件付け解析を深層ニューラルネットワーク(DNN)に拡張し,その学習力学を解明する。
バッチ正規化(BN)はトレーニングを安定させるが、時には局所的な最小値の誤った印象を与える。
我々はBNが最適化問題の階層的条件付けを改善することを実験的に観察した。
論文 参考訳(メタデータ) (2020-02-25T11:40:27Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。