論文の概要: Understanding Gradient Descent through the Training Jacobian
- arxiv url: http://arxiv.org/abs/2412.07003v1
- Date: Mon, 09 Dec 2024 21:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:36:21.855742
- Title: Understanding Gradient Descent through the Training Jacobian
- Title(参考訳): ジャコビアン訓練によるグラディエントDescentの理解
- Authors: Nora Belrose, Adam Scherlis,
- Abstract要約: トレーニングされたネットワークパラメータのヤコビアンを用いたニューラルネットワークトレーニングの幾何学について,その初期値について検討する。
本分析では,入力データに依存するがラベルに依存しない学習過程における低次元構造を明らかにする。
- 参考スコア(独自算出の注目度): 1.9358739203360091
- License:
- Abstract: We examine the geometry of neural network training using the Jacobian of trained network parameters with respect to their initial values. Our analysis reveals low-dimensional structure in the training process which is dependent on the input data but largely independent of the labels. We find that the singular value spectrum of the Jacobian matrix consists of three distinctive regions: a "chaotic" region of values orders of magnitude greater than one, a large "bulk" region of values extremely close to one, and a "stable" region of values less than one. Along each bulk direction, the left and right singular vectors are nearly identical, indicating that perturbations to the initialization are carried through training almost unchanged. These perturbations have virtually no effect on the network's output in-distribution, yet do have an effect far out-of-distribution. While the Jacobian applies only locally around a single initialization, we find substantial overlap in bulk subspaces for different random seeds.
- Abstract(参考訳): トレーニングされたネットワークパラメータのヤコビアンを用いたニューラルネットワークトレーニングの幾何学について,その初期値について検討する。
本分析では,入力データに依存するがラベルに依存しない学習過程における低次元構造を明らかにする。
ヤコビ行列の特異値スペクトルは、1より大きい値の「カオス」領域、1に非常に近い値の「バルク」領域、1より小さい値の「安定」領域である。
各バルク方向に沿って、左右の特異ベクトルはほぼ同一であり、初期化に対する摂動はほとんど変化しない。
これらの摂動は、ネットワークの出力の分配にはほとんど影響を与えないが、分配の域を出ない効果を持つ。
ヤコビアンは1つの初期化の周辺でのみ局所的に適用されるが、異なるランダムな種に対してバルク部分空間がかなり重複していることが分かる。
関連論文リスト
- On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Side-effects of Learning from Low Dimensional Data Embedded in an
Euclidean Space [3.093890460224435]
データ多様体の必要次元におけるネットワークの深さとノイズに関連する潜在的な正則化効果について検討する。
また,騒音によるトレーニングの副作用も提示した。
論文 参考訳(メタデータ) (2022-03-01T16:55:51Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Learning from Small Samples: Transformation-Invariant SVMs with
Composition and Locality at Multiple Scales [11.210266084524998]
本稿では、畳み込みニューラルネットワーク(CNN)を成功させた、サポートベクターマシン(SVM)に組み込む方法を示す。
論文 参考訳(メタデータ) (2021-09-27T04:02:43Z) - Orthogonal Jacobian Regularization for Unsupervised Disentanglement in
Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。
提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文 参考訳(メタデータ) (2021-08-17T15:01:46Z) - Self-Regularity of Non-Negative Output Weights for Overparameterized
Two-Layer Neural Networks [16.64116123743938]
我々は、Sigmoid, rectified linear unit (ReLU) を用いた2層ニューラルネットワークの探索問題を考える。
そして、その境界を利用して、Emphfat-shattering dimensionを通じてそのようなネットワークの保証を確立する。
特に、我々の境界はサンプルの複雑さも良い(低次数$$d$のポリノミアル)。
論文 参考訳(メタデータ) (2021-03-02T17:36:03Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Neural networks behave as hash encoders: An empirical study [79.38436088982283]
ReLUライクなアクティベーションを持つニューラルネットワークの入力空間は、複数の線形領域に分割される。
このパーティションは、さまざまなディープラーニングモデルで以下のエンコーディング特性を示すことを実証します。
K$-Means、$K$-NN、およびロジスティック回帰などの単純なアルゴリズムは、トレーニングデータとテストデータの両方でかなり優れたパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2021-01-14T07:50:40Z) - Eigendecomposition-Free Training of Deep Networks for Linear
Least-Square Problems [107.3868459697569]
我々は、ディープネットワークのトレーニングに固有分解のないアプローチを導入する。
この手法は固有分解の明示的な微分よりもはるかに堅牢であることを示す。
我々の手法は収束特性が良く、最先端の結果が得られます。
論文 参考訳(メタデータ) (2020-04-15T04:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。