論文の概要: Gradient Descent for Deep Matrix Factorization: Dynamics and Implicit
Bias towards Low Rank
- arxiv url: http://arxiv.org/abs/2011.13772v5
- Date: Mon, 21 Aug 2023 00:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 03:42:44.387488
- Title: Gradient Descent for Deep Matrix Factorization: Dynamics and Implicit
Bias towards Low Rank
- Title(参考訳): 深層行列因子分解のための勾配降下--低位へのダイナミクスと暗黙のバイアス
- Authors: Hung-Hsu Chou, Carsten Gieshoff, Johannes Maly, Holger Rauhut
- Abstract要約: ディープラーニングでは、勾配発散は、よく一般化する解を好む傾向にある。
本稿では,線形ネットワークの簡易化における勾配降下のダイナミクスと推定問題について解析する。
- 参考スコア(独自算出の注目度): 1.9350867959464846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In deep learning, it is common to use more network parameters than training
points. In such scenarioof over-parameterization, there are usually multiple
networks that achieve zero training error so that thetraining algorithm induces
an implicit bias on the computed solution. In practice, (stochastic)
gradientdescent tends to prefer solutions which generalize well, which provides
a possible explanation of thesuccess of deep learning. In this paper we analyze
the dynamics of gradient descent in the simplifiedsetting of linear networks
and of an estimation problem. Although we are not in an
overparameterizedscenario, our analysis nevertheless provides insights into the
phenomenon of implicit bias. In fact, wederive a rigorous analysis of the
dynamics of vanilla gradient descent, and characterize the dynamicalconvergence
of the spectrum. We are able to accurately locate time intervals where the
effective rankof the iterates is close to the effective rank of a low-rank
projection of the ground-truth matrix. Inpractice, those intervals can be used
as criteria for early stopping if a certain regularity is desired. Wealso
provide empirical evidence for implicit bias in more general scenarios, such as
matrix sensing andrandom initialization. This suggests that deep learning
prefers trajectories whose complexity (measuredin terms of effective rank) is
monotonically increasing, which we believe is a fundamental concept for
thetheoretical understanding of deep learning.
- Abstract(参考訳): ディープラーニングでは、トレーニングポイントよりも多くのネットワークパラメータを使用するのが一般的である。
このような過パラメータ化のシナリオでは、訓練アルゴリズムが計算した解に暗黙のバイアスを引き起こすように、トレーニングエラーをゼロにする複数のネットワークが存在する。
実際には、(統計的に)グラデーションドルミネッセンスは、よく一般化した解を好む傾向にあり、深層学習の成功を説明できる。
本稿では,線形ネットワークの簡易化における勾配降下のダイナミクスと推定問題について解析する。
我々は過度にパラメータ化されたscenarioにはいないが、それでも我々の分析は暗黙のバイアス現象に関する洞察を与えてくれる。
実際、バニラ勾配降下のダイナミクスの厳密な解析を行い、スペクトルの動的収束を特徴付ける。
我々は,イテレートの有効ランクが接地行列の低ランク射影の有効ランクに近い時間間隔を正確に特定することができる。
実際には、一定の規則性が要求される場合は、これらの間隔を早期停止の基準として使用できる。
また、行列センシングやランダム初期化など、より一般的なシナリオにおける暗黙バイアスの実証的証拠も提供する。
このことは、深層学習が複雑度(有効ランクの測度)が単調に増加する軌跡を好むことを示唆しており、これは深層学習の理論的理解の基本的な概念であると考えている。
関連論文リスト
- On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Understanding Incremental Learning of Gradient Descent: A Fine-grained
Analysis of Matrix Sensing [74.2952487120137]
GD(Gradient Descent)は、機械学習モデルにおいて、良い一般化に対する暗黙のバイアスをもたらすと考えられている。
本稿では,行列センシング問題に対するGDのダイナミクスを詳細に解析する。
論文 参考訳(メタデータ) (2023-01-27T02:30:51Z) - A Dynamics Theory of Implicit Regularization in Deep Low-Rank Matrix
Factorization [21.64166573203593]
暗黙の正則化は、ニューラルネットワークを解釈する重要な方法である。
最近の理論は、深い行列分解(DMF)モデルで暗黙の正則化を説明するようになった。
論文 参考訳(メタデータ) (2022-12-29T02:11:19Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Depth Without the Magic: Inductive Bias of Natural Gradient Descent [1.020554144865699]
勾配降下では、モデルをパラメータ化する方法を変えることで、大幅に異なる最適化軌道が導かれる。
深い線形ネットワークにおける自然勾配流の挙動を,ロジスティックな損失と深い行列因数分解の下で分離可能な分類のために特徴づける。
本研究では,自然勾配降下が一般化に失敗する学習問題が存在する一方で,適切なアーキテクチャによる勾配降下が良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-22T21:20:10Z) - Continuous vs. Discrete Optimization of Deep Neural Networks [15.508460240818575]
均一な活性化を伴う深層ニューラルネットワーク上では、勾配流軌跡が良好な曲率を享受できることが示される。
この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、勾配勾配が効率的に大域最小限に収束することを保証できる。
我々は、勾配流の理論が深層学習の背後にある謎の解き放つ中心となると仮定する。
論文 参考訳(メタデータ) (2021-07-14T10:59:57Z) - Implicit Bias of SGD for Diagonal Linear Networks: a Provable Benefit of
Stochasticity [24.428843425522107]
直交線形ネットワーク上の勾配降下の力学を,その連続時間,すなわち勾配流を用いて研究する。
トレーニング損失の収束速度がバイアス効果の大きさを制御することを示し,収束速度が遅くなるほどバイアスが良くなることを示した。
論文 参考訳(メタデータ) (2021-06-17T14:16:04Z) - Vanishing Curvature and the Power of Adaptive Methods in Randomly
Initialized Deep Networks [30.467121747150816]
本稿では,ニューラルネットワークの深部で一般的に発生する,いわゆる消滅勾配現象を再考する。
ネットワーク幅が O(depth) 未満のスケールでは, 消失勾配を回避できないことを示す。
論文 参考訳(メタデータ) (2021-06-07T16:29:59Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - Theoretical Analysis of Self-Training with Deep Networks on Unlabeled
Data [48.4779912667317]
自己学習アルゴリズムは、ニューラルネットワークを使ってラベルのないデータで学ぶことに成功している。
この研究は、半教師なし学習、教師なしドメイン適応、教師なし学習のための深層ネットワークによる自己学習の統一的理論的解析を提供する。
論文 参考訳(メタデータ) (2020-10-07T19:43:55Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。