論文の概要: Approaching Deep Learning through the Spectral Dynamics of Weights
- arxiv url: http://arxiv.org/abs/2408.11804v1
- Date: Wed, 21 Aug 2024 17:48:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 15:58:35.768166
- Title: Approaching Deep Learning through the Spectral Dynamics of Weights
- Title(参考訳): 重みのスペクトルダイナミクスによる深層学習へのアプローチ
- Authors: David Yunis, Kumar Kshitij Patel, Samuel Wheeler, Pedro Savarese, Gal Vardi, Karen Livescu, Michael Maire, Matthew R. Walter,
- Abstract要約: 重みのスペクトル力学 -- 最適化中の特異値とベクトルの振る舞い -- は、ディープラーニングにおけるいくつかの現象を明確にし、統一する。
ConvNetによる画像分類,UNetsによる画像生成,LSTMによる音声認識,Transformersによる言語モデリングなど,さまざまな実験における最適化における一貫したバイアスを同定する。
- 参考スコア(独自算出の注目度): 41.948042468042374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an empirical approach centered on the spectral dynamics of weights -- the behavior of singular values and vectors during optimization -- to unify and clarify several phenomena in deep learning. We identify a consistent bias in optimization across various experiments, from small-scale ``grokking'' to large-scale tasks like image classification with ConvNets, image generation with UNets, speech recognition with LSTMs, and language modeling with Transformers. We also demonstrate that weight decay enhances this bias beyond its role as a norm regularizer, even in practical systems. Moreover, we show that these spectral dynamics distinguish memorizing networks from generalizing ones, offering a novel perspective on this longstanding conundrum. Additionally, we leverage spectral dynamics to explore the emergence of well-performing sparse subnetworks (lottery tickets) and the structure of the loss surface through linear mode connectivity. Our findings suggest that spectral dynamics provide a coherent framework to better understand the behavior of neural networks across diverse settings.
- Abstract(参考訳): 本稿では,重みのスペクトル力学(最適化時の特異値とベクトルの挙動)に着目した経験的アプローチを提案し,深層学習におけるいくつかの現象を統一・解明する。
ConvNetによる画像分類、UNetsによる画像生成、LSTMによる音声認識、Transformersによる言語モデリングなど、さまざまな実験における最適化における一貫したバイアスを同定する。
また, 重み劣化は, 実用システムにおいても, 標準正則化器としての役割を超えて, このバイアスを増大させることを示した。
さらに、これらのスペクトルダイナミクスは、記憶ネットワークと一般化ネットワークを区別し、この長年のコンウンドラムに対する新たな視点を提供する。
さらに、スペクトル力学を利用して、疎水性サブネット(ロタリーチケット)の出現と、リニアモード接続による損失面の構造を探索する。
我々の研究結果は、スペクトル力学がニューラルネットワークの振る舞いをよりよく理解するためのコヒーレントな枠組みを提供することを示唆している。
関連論文リスト
- Theoretical characterisation of the Gauss-Newton conditioning in Neural Networks [5.851101657703105]
ニューラルネットワークにおけるガウスニュートン行列(GN)の条件付けを理論的に特徴付けるための第一歩を踏み出す。
我々は、任意の深さと幅の深い線形ネットワークにおいて、GNの条件数に厳密な境界を確立する。
残りの接続や畳み込み層といったアーキテクチャコンポーネントに分析を拡張します。
論文 参考訳(メタデータ) (2024-11-04T14:56:48Z) - Learn to Memorize and to Forget: A Continual Learning Perspective of Dynamic SLAM [17.661231232206028]
暗黙的な神経表現を伴う同時局所化とマッピング(SLAM)が注目されている。
動的環境のための新しいSLAMフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T09:35:48Z) - Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy [75.15685966213832]
最適化トラジェクトリのリッチな方向構造をポイントワイズパラメータで解析する。
トレーニング中のスカラーバッチノルムパラメータは,ネットワーク全体のトレーニング性能と一致していることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:32:47Z) - Tractable Dendritic RNNs for Reconstructing Nonlinear Dynamical Systems [7.045072177165241]
線形スプラインベース展開により、片方向線形リカレントニューラルネットワーク(RNN)を増強する。
このアプローチは単純な PLRNN の理論的に魅力的な性質を全て保持するが、相対的に低次元の任意の非線形力学系を近似する能力は向上する。
論文 参考訳(メタデータ) (2022-07-06T09:43:03Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Neural Dynamic Mode Decomposition for End-to-End Modeling of Nonlinear
Dynamics [49.41640137945938]
ニューラルネットワークに基づくリフト関数を推定するためのニューラルダイナミックモード分解法を提案する。
提案手法により,予測誤差はニューラルネットワークとスペクトル分解によって逆伝搬される。
提案手法の有効性を,固有値推定と予測性能の観点から実証した。
論文 参考訳(メタデータ) (2020-12-11T08:34:26Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。