論文の概要: Crafting Heavy-Tails in Weight Matrix Spectrum without Gradient Noise
- arxiv url: http://arxiv.org/abs/2406.04657v2
- Date: Wed, 02 Oct 2024 08:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:18:36.300648
- Title: Crafting Heavy-Tails in Weight Matrix Spectrum without Gradient Noise
- Title(参考訳): グラディエントノイズを伴わない軽量マトリックススペクトルによる重機製作
- Authors: Vignesh Kothapalli, Tianyu Pang, Shenyang Deng, Zongmin Liu, Yaoqing Yang,
- Abstract要約: 現代のディープニューラルネットワーク(NN)のトレーニング戦略は、層重みのヘビーテール(HT)経験スペクトル密度(ESD)を誘導する。
雑音のない2層NNのESDにおける重みの「加工」に関する理論的インフォームド解析を行った。
本研究は,2層NNの一般化を促進する訓練の初期段階において,ESDのバルク+スパイクおよびHT形状における学習速度の役割を強調した。
- 参考スコア(独自算出の注目度): 17.047793750451905
- License:
- Abstract: Training strategies for modern deep neural networks (NNs) tend to induce a heavy-tailed (HT) empirical spectral density (ESD) in the layer weights. While previous efforts have shown that the HT phenomenon correlates with good generalization in large NNs, a theoretical explanation of its occurrence is still lacking. Especially, understanding the conditions which lead to this phenomenon can shed light on the interplay between generalization and weight spectra. Our work aims to bridge this gap by presenting a simple, rich setting to model the emergence of HT ESD. In particular, we present a theory-informed analysis for 'crafting' heavy tails in the ESD of two-layer NNs without any gradient noise. This is the first work to analyze a noise-free setting and incorporate optimizer (GD/Adam) dependent (large) learning rates into the HT ESD analysis. Our results highlight the role of learning rates on the Bulk+Spike and HT shape of the ESDs in the early phase of training, which can facilitate generalization in the two-layer NN. These observations shed light on the behavior of large-scale NNs, albeit in a much simpler setting. Last but not least, we present a novel perspective on the ESD evolution dynamics by analyzing the singular vectors of weight matrices and optimizer updates.
- Abstract(参考訳): 現代のディープニューラルネットワーク(NN)のトレーニング戦略は、層重みのヘビーテール(HT)経験スペクトル密度(ESD)を誘導する傾向がある。
これまでの研究で、HT現象は大きなNNにおいて良い一般化と相関していることが示されているが、その発生に関する理論的説明はいまだに不足している。
特に、この現象に繋がる条件を理解することは、一般化と重みスペクトルの相互作用に光を当てることができる。
私たちの研究は、HT ESDの出現をモデル化するためのシンプルでリッチな設定を提供することによって、このギャップを埋めることを目的としています。
特に、勾配雑音のない2層NNのESDにおける重みの「加工」に関する理論インフォームド解析を提案する。
これは、ノイズフリーな設定を分析し、最適化器(GD/Adam)に依存した学習率をHT ESD分析に組み込む最初の試みである。
本研究は,2層NNの一般化を促進する訓練の初期段階において,ESDのバルク+スパイクおよびHT形状における学習速度の役割を強調した。
これらの観測は、大規模なNNの行動に光を当てた。
最後に、重み行列の特異ベクトルの解析とオプティマイザ更新により、ESD進化力学の新しい視点を示す。
関連論文リスト
- Spectral Adapter: Fine-Tuning in Spectral Space [45.72323731094864]
本研究では, 既訓練重量行列のスペクトル情報を微調整手順に組み込むことにより, 現在のPEFT法の強化について検討した。
提案するファインチューニングモデルにより,パラメータ効率とチューニング性能が向上し,マルチアダプタ融合のメリットが期待できることを示す。
論文 参考訳(メタデータ) (2024-05-22T19:36:55Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Spectral Evolution and Invariance in Linear-width Neural Networks [8.419660614226816]
線形幅フィードフォワードニューラルネットワークのスペクトル特性について検討する。
この高次元構造における重みのスペクトルは、小さな定常学習率の勾配降下によって訓練されたときに不変であることを示す。
また,テストエラーや特徴学習の少ない適応的勾配学習では,重みとカーネルの両方に重みが認められた。
論文 参考訳(メタデータ) (2022-11-11T23:00:30Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z) - Supernova Light Curves Approximation based on Neural Network Models [53.180678723280145]
光度データによる超新星の分類は、天文学におけるビッグデータのリアルタイム処理の出現によって課題となる。
近年の研究では、様々な機械学習モデルに基づく解の優れた品質が実証されている。
我々は,多層パーセプトロン(MLP),ベイジアンニューラルネットワーク(BNN),正規化フロー(NF)の単一光曲線観測への応用について検討した。
論文 参考訳(メタデータ) (2022-06-27T13:46:51Z) - Characterizing the Implicit Bias of Regularized SGD in Rank Minimization [9.607159748020601]
ニューラルネットワークをミニバッチSGDでトレーニングすると、重み行列のランク最小化に偏りが生じることを示す。
具体的には、このバイアスはより小さいバッチサイズ、高い学習率、あるいは体重減少の増加でより顕著であることを示す。
このバイアスと一般化の関係を実証的に研究し、一般化に限界効果があることを見出した。
論文 参考訳(メタデータ) (2022-06-12T17:06:35Z) - MST++: Multi-stage Spectral-wise Transformer for Efficient Spectral
Reconstruction [148.26195175240923]
効率的なスペクトル再構成のためのマルチステージスペクトル変換器(MST++)を提案する。
NTIRE 2022 Spectral Reconstruction Challengeでは、私たちのアプローチが優勝しました。
論文 参考訳(メタデータ) (2022-04-17T02:39:32Z) - Deep Attention-Based Supernovae Classification of Multi-Band
Light-Curves [0.0]
超新星(SNe)は、他の変動事象のクラスと比較して、比較的珍しい天体である。
マルチバンド光曲線の処理は、非常に不規則なケイデンス、長時間のギャップ、欠落値、低数の観測のために難しい課題である。
SNの異なるマルチバンド光曲線を分類するために,TimeModAttn と呼ばれる深部アテンションモデルを提案する。
第二に、超新星パラメトリックモデル(SPM)に基づくSNマルチバンド光曲線の合成生成モデルを提案する。
論文 参考訳(メタデータ) (2022-01-20T22:48:40Z) - Implicit Data-Driven Regularization in Deep Neural Networks under SGD [0.0]
訓練されたディープニューラルネットワーク(DNN)に関与する大きなランダム行列のスペクトル解析
これらのスペクトルは、Marvcenko-Pasturスペクトル(MP)、Marvcenko-Pasturスペクトル(MPB)、Heav tailed spectrum(HT)の3種類に分類される。
論文 参考訳(メタデータ) (2021-11-26T06:36:16Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。