論文の概要: The Law of Parsimony in Gradient Descent for Learning Deep Linear
Networks
- arxiv url: http://arxiv.org/abs/2306.01154v1
- Date: Thu, 1 Jun 2023 21:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 17:43:43.037169
- Title: The Law of Parsimony in Gradient Descent for Learning Deep Linear
Networks
- Title(参考訳): ディープリニアネットワーク学習のための勾配降下におけるparsimonyの法則
- Authors: Can Yaras, Peng Wang, Wei Hu, Zhihui Zhu, Laura Balzano, and Qing Qu
- Abstract要約: 我々は、データが低次元構造を持つ場合、学習力学において驚くべき「パシモニーの法則」を明らかにする。
この学習力学の単純さは、効率的なトレーニングとディープネットワークのより良い理解の両方に重大な影響を及ぼす可能性がある。
- 参考スコア(独自算出の注目度): 34.85235641812005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past few years, an extensively studied phenomenon in training deep
networks is the implicit bias of gradient descent towards parsimonious
solutions. In this work, we investigate this phenomenon by narrowing our focus
to deep linear networks. Through our analysis, we reveal a surprising "law of
parsimony" in the learning dynamics when the data possesses low-dimensional
structures. Specifically, we show that the evolution of gradient descent
starting from orthogonal initialization only affects a minimal portion of
singular vector spaces across all weight matrices. In other words, the learning
process happens only within a small invariant subspace of each weight matrix,
despite the fact that all weight parameters are updated throughout training.
This simplicity in learning dynamics could have significant implications for
both efficient training and a better understanding of deep networks. First, the
analysis enables us to considerably improve training efficiency by taking
advantage of the low-dimensional structure in learning dynamics. We can
construct smaller, equivalent deep linear networks without sacrificing the
benefits associated with the wider counterparts. Second, it allows us to better
understand deep representation learning by elucidating the linear progressive
separation and concentration of representations from shallow to deep layers. We
also conduct numerical experiments to support our theoretical results. The code
for our experiments can be found at https://github.com/cjyaras/lawofparsimony.
- Abstract(参考訳): 過去数年間、ディープネットワークのトレーニングで広く研究された現象は、従順解に対する勾配降下の暗黙のバイアスである。
本研究では,この現象を,深い線形ネットワークに焦点を絞ることで検討する。
本研究では,データに低次元構造を持つ場合の学習ダイナミクスにおける驚くべき「パリティの法則」を明らかにする。
具体的には、直交初期化から始まる勾配降下の進化は、すべての重み行列における特異ベクトル空間の最小部分にしか影響しないことを示す。
言い換えれば、学習プロセスは各重み行列の小さな不変部分空間内でのみ行われるが、すべての重みパラメータはトレーニングを通じて更新される。
この学習ダイナミクスの単純さは、効率的なトレーニングと深層ネットワークのより深い理解の両方に重大な影響を与える可能性がある。
まず,学習ダイナミクスの低次元構造を生かして,学習効率を大幅に向上させることができる。
より広いネットワークの利点を犠牲にすることなく、より小さく等価な深い線形ネットワークを構築することができる。
第二に、浅層から深層への表現の線形漸進的分離と集中を解明することにより、深層表現学習の理解を深める。
理論的結果を支持する数値実験も実施する。
実験のコードはhttps://github.com/cjyaras/lawofparsimony.comにある。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Understanding Deep Representation Learning via Layerwise Feature
Compression and Discrimination [33.273226655730326]
深層線形ネットワークの各層は、幾何速度でクラス内特徴を徐々に圧縮し、線形速度でクラス間特徴を識別することを示す。
これは、ディープ線形ネットワークの階層的表現における特徴進化の最初の定量的評価である。
論文 参考訳(メタデータ) (2023-11-06T09:00:38Z) - Understanding Deep Neural Networks via Linear Separability of Hidden
Layers [68.23950220548417]
まず,ミンコフスキー差分に基づく線形分離性尺度(MD-LSMs)を提案し,2点集合の線形分離性度を評価する。
隠れ層出力の線形分離度とネットワークトレーニング性能との間には同期性があることを実証する。
論文 参考訳(メタデータ) (2023-07-26T05:29:29Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - Towards Understanding Learning in Neural Networks with Linear Teachers [31.849269592822296]
我々は,この学習問題をLaky ReLUアクティベートした2層ネットワークに対して,SGDがグローバルに最適化していることを証明する。
ネットワーク重みが2つの重みクラスターに収束すると、これは概線形決定境界となることを証明し、この現象を理論的に支持する。
論文 参考訳(メタデータ) (2021-01-07T13:21:24Z) - Statistical Mechanics of Deep Linear Neural Networks: The
Back-Propagating Renormalization Group [4.56877715768796]
個々の単位の入力出力関数が線形である深線型ニューラルネットワーク(DLNN)における学習の統計力学について検討する。
重み空間における平衡ギブス分布を用いて教師あり学習後のネットワーク特性を正確に解く。
数値シミュレーションにより, 非線形性にもかかわらず, 理論の予測は大部分, 深さの小さいreluネットワークによって共有されていることが明らかとなった。
論文 参考訳(メタデータ) (2020-12-07T20:08:31Z) - Align, then memorise: the dynamics of learning with feedback alignment [12.587037358391418]
直接フィードバックアライメント(DFA)は、ディープニューラルネットワークのトレーニングのためのユビキタスバックプロパゲーションアルゴリズムの効率的な代替手段である。
DFAはTransformersのような最先端モデルのトレーニングに成功したが、畳み込みネットワークのトレーニングには失敗している。
本稿では,DFAの成功に関する理論を提案する。
論文 参考訳(メタデータ) (2020-11-24T22:21:27Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。