論文の概要: An Analytical Characterization of Sloppiness in Neural Networks: Insights from Linear Models
- arxiv url: http://arxiv.org/abs/2505.08915v1
- Date: Tue, 13 May 2025 19:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.281646
- Title: An Analytical Characterization of Sloppiness in Neural Networks: Insights from Linear Models
- Title(参考訳): ニューラルネットワークにおける傾斜度の解析的評価:線形モデルからの考察
- Authors: Jialin Mao, Itay Griniasty, Yan Sun, Mark K. Transtrum, James P. Sethna, Pratik Chaudhari,
- Abstract要約: 近年の研究では、複数の深層ニューラルネットワークのトレーニング軌道が、驚くほど低次元の「ハイパーリボン様」多様体上で進化することが示されている。
深層ネットワークと線形ネットワークの訓練軌跡の類似性から着想を得て,この現象を後者に対して解析的に特徴付ける。
この低次元多様体の幾何学は, (i) トレーニングデータの入力相関行列の固有値の減衰率, (ii) トレーニング開始時の接地トラスト出力の相対スケール, (iii) 勾配勾配のステップ数によって制御されることを示す。
- 参考スコア(独自算出の注目度): 18.99511760351873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent experiments have shown that training trajectories of multiple deep neural networks with different architectures, optimization algorithms, hyper-parameter settings, and regularization methods evolve on a remarkably low-dimensional "hyper-ribbon-like" manifold in the space of probability distributions. Inspired by the similarities in the training trajectories of deep networks and linear networks, we analytically characterize this phenomenon for the latter. We show, using tools in dynamical systems theory, that the geometry of this low-dimensional manifold is controlled by (i) the decay rate of the eigenvalues of the input correlation matrix of the training data, (ii) the relative scale of the ground-truth output to the weights at the beginning of training, and (iii) the number of steps of gradient descent. By analytically computing and bounding the contributions of these quantities, we characterize phase boundaries of the region where hyper-ribbons are to be expected. We also extend our analysis to kernel machines and linear models that are trained with stochastic gradient descent.
- Abstract(参考訳): 最近の実験では、異なるアーキテクチャ、最適化アルゴリズム、ハイパーパラメータ設定、正規化手法を含む複数のディープニューラルネットワークのトレーニング軌道が、確率分布の空間における驚くほど低次元の「ハイパーリボン様」多様体上で進化することが示されている。
深層ネットワークと線形ネットワークの訓練軌跡の類似性から着想を得て,この現象を後者に対して解析的に特徴付ける。
我々は、力学系理論の道具を用いて、この低次元多様体の幾何学が制御されることを示す。
一 トレーニングデータの入力相関行列の固有値の減衰率
二 修業開始時の重量に対する地筋出力の相対的規模及び
(三)勾配降下の段数
これらの量の寄与を解析的に計算し、有界化することにより、超リボンが期待される領域の位相境界を特徴づける。
我々はまた、確率勾配勾配で訓練されたカーネルマシンや線形モデルにも解析を拡張した。
関連論文リスト
- In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Unifying Low Dimensional Observations in Deep Learning Through the Deep Linear Unconstrained Feature Model [0.0]
深部ニューラルネットワークの重み,ヘッセン,勾配,特徴ベクトルの低次元構造について検討した。
一般化された制約のない特徴モデルでそれらを統一する方法を示す。
論文 参考訳(メタデータ) (2024-04-09T08:17:32Z) - Weak Correlations as the Underlying Principle for Linearization of
Gradient-Based Learning Systems [1.0878040851638]
本稿では,パラメータの動的構造を線形に表示する勾配降下に基づく学習アルゴリズムについて述べる。
この明らかな線型性は、仮説関数の第一階微分と高階微分の間の弱い相関によるものである。
線形性と弱相関の関係を爆発させることにより,勾配降下の訓練軌道中に観測された線形性から偏差を導出する。
論文 参考訳(メタデータ) (2024-01-08T16:44:23Z) - From Complexity to Clarity: Analytical Expressions of Deep Neural Network Weights via Clifford's Geometric Algebra and Convexity [54.01594785269913]
我々は,標準正規化損失のトレーニングにおいて,深部ReLUニューラルネットワークの最適重みがトレーニングサンプルのウェッジ積によって与えられることを示した。
トレーニング問題は、トレーニングデータセットの幾何学的構造をエンコードするウェッジ製品機能よりも凸最適化に還元される。
論文 参考訳(メタデータ) (2023-09-28T15:19:30Z) - Autoencoders for discovering manifold dimension and coordinates in data
from complex dynamical systems [0.0]
Autoencoder frameworkは暗黙の正則化と内部線形層と$L$正則化(重崩壊)を組み合わせる
このフレームワークは、状態空間モデリングや予測の応用のために自然に拡張できることを示す。
論文 参考訳(メタデータ) (2023-05-01T21:14:47Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Convex Analysis of the Mean Field Langevin Dynamics [49.66486092259375]
平均場ランゲヴィン力学の収束速度解析について述べる。
ダイナミックスに付随する$p_q$により、凸最適化において古典的な結果と平行な収束理論を開発できる。
論文 参考訳(メタデータ) (2022-01-25T17:13:56Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。