論文の概要: Understanding Gradient Descent through the Training Jacobian
- arxiv url: http://arxiv.org/abs/2412.07003v2
- Date: Wed, 11 Dec 2024 09:32:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:01:47.822074
- Title: Understanding Gradient Descent through the Training Jacobian
- Title(参考訳): ジャコビアン訓練によるグラディエントDescentの理解
- Authors: Nora Belrose, Adam Scherlis,
- Abstract要約: トレーニングされたネットワークパラメータのヤコビアンを用いたニューラルネットワークトレーニングの幾何学について,その初期値について検討する。
本分析では,入力データに依存するがラベルに依存しない学習過程における低次元構造を明らかにする。
- 参考スコア(独自算出の注目度): 1.9358739203360091
- License:
- Abstract: We examine the geometry of neural network training using the Jacobian of trained network parameters with respect to their initial values. Our analysis reveals low-dimensional structure in the training process which is dependent on the input data but largely independent of the labels. We find that the singular value spectrum of the Jacobian matrix consists of three distinctive regions: a "chaotic" region of values orders of magnitude greater than one, a large "bulk" region of values extremely close to one, and a "stable" region of values less than one. Along each bulk direction, the left and right singular vectors are nearly identical, indicating that perturbations to the initialization are carried through training almost unchanged. These perturbations have virtually no effect on the network's output in-distribution, yet do have an effect far out-of-distribution. While the Jacobian applies only locally around a single initialization, we find substantial overlap in bulk subspaces for different random seeds. Our code is available at https://github.com/EleutherAI/training-jacobian
- Abstract(参考訳): トレーニングされたネットワークパラメータのヤコビアンを用いたニューラルネットワークトレーニングの幾何学について,その初期値について検討する。
本分析では,入力データに依存するがラベルに依存しない学習過程における低次元構造を明らかにする。
ヤコビ行列の特異値スペクトルは、1より大きい値の「カオス」領域、1に非常に近い値の「バルク」領域、1より小さい値の「安定」領域である。
各バルク方向に沿って、左右の特異ベクトルはほぼ同一であり、初期化に対する摂動はほとんど変化しない。
これらの摂動は、ネットワークの出力の分配にはほとんど影響を与えないが、分配の域を出ない効果を持つ。
ヤコビアンは1つの初期化の周辺でのみ局所的に適用されるが、異なるランダムな種に対してバルク部分空間がかなり重複していることが分かる。
私たちのコードはhttps://github.com/EleutherAI/training-jacobianで利用可能です。
関連論文リスト
- Feature learning in finite-width Bayesian deep linear networks with multiple outputs and convolutional layers [39.71511919246829]
深い線形ネットワークは広く研究されているが、複数の出力と畳み込み層を持つ有限幅アーキテクチャの場合はほとんど知られていない。
我々の研究は、この物理学の直観と用語を厳密なベイズ統計に翻訳する辞書を提供する。
論文 参考訳(メタデータ) (2024-06-05T13:37:42Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - The Sample Complexity of One-Hidden-Layer Neural Networks [57.6421258363243]
本研究では,スカラー値を持つ一層ネットワークのクラスとユークリッドノルムで有界な入力について検討する。
隠蔽層重み行列のスペクトルノルムの制御は、一様収束を保証するには不十分であることを示す。
スペクトルノルム制御が十分であることを示す2つの重要な設定を解析する。
論文 参考訳(メタデータ) (2022-02-13T07:12:02Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - On the training of sparse and dense deep neural networks: less
parameters, same performance [0.0]
本稿では,2021年に発表されたスペクトル学習手法の変種を提案する。
固有値は検証可能なノブとして機能し、(i)入力ノードの寄与を増強したり、あるいは沈黙したりするために自由に調整することができる。
それぞれのスペクトルパラメータはノード間重みの集合全体を反映しており、この特性を効果的に活用し、見事な分類能力を持つスパースネットワークを創出する。
論文 参考訳(メタデータ) (2021-06-17T14:54:23Z) - Batch Normalization Orthogonalizes Representations in Deep Random
Networks [3.109481609083199]
我々は、深度、幅、深度表現の直交性の間の相互作用の非漸近的特徴を確立する。
直交性からの表現の偏差は、ネットワーク幅に逆比例する項までの深さで急速に減衰することを示す。
この結果は2つの主な意味を持つ: 1) 理論的には、深さが大きくなるにつれて、表現のコントラクトのワッサーシュタイン-2球への分布は、等方ガウス分布の周りにある。
論文 参考訳(メタデータ) (2021-06-07T21:14:59Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Neural networks behave as hash encoders: An empirical study [79.38436088982283]
ReLUライクなアクティベーションを持つニューラルネットワークの入力空間は、複数の線形領域に分割される。
このパーティションは、さまざまなディープラーニングモデルで以下のエンコーディング特性を示すことを実証します。
K$-Means、$K$-NN、およびロジスティック回帰などの単純なアルゴリズムは、トレーニングデータとテストデータの両方でかなり優れたパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2021-01-14T07:50:40Z) - Eigendecomposition-Free Training of Deep Networks for Linear
Least-Square Problems [107.3868459697569]
我々は、ディープネットワークのトレーニングに固有分解のないアプローチを導入する。
この手法は固有分解の明示的な微分よりもはるかに堅牢であることを示す。
我々の手法は収束特性が良く、最先端の結果が得られます。
論文 参考訳(メタデータ) (2020-04-15T04:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。