論文の概要: Understanding Incremental Learning of Gradient Descent: A Fine-grained
Analysis of Matrix Sensing
- arxiv url: http://arxiv.org/abs/2301.11500v1
- Date: Fri, 27 Jan 2023 02:30:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 16:41:07.078506
- Title: Understanding Incremental Learning of Gradient Descent: A Fine-grained
Analysis of Matrix Sensing
- Title(参考訳): 勾配降下のインクリメンタル学習を理解する:マトリックスセンシングの細粒度解析
- Authors: Jikai Jin and Zhiyuan Li and Kaifeng Lyu and Simon S. Du and Jason D.
Lee
- Abstract要約: GD(Gradient Descent)は、機械学習モデルにおいて、良い一般化に対する暗黙のバイアスをもたらすと考えられている。
本稿では,行列センシング問題に対するGDのダイナミクスを詳細に解析する。
- 参考スコア(独自算出の注目度): 74.2952487120137
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It is believed that Gradient Descent (GD) induces an implicit bias towards
good generalization in training machine learning models. This paper provides a
fine-grained analysis of the dynamics of GD for the matrix sensing problem,
whose goal is to recover a low-rank ground-truth matrix from near-isotropic
linear measurements. It is shown that GD with small initialization behaves
similarly to the greedy low-rank learning heuristics (Li et al., 2020) and
follows an incremental learning procedure (Gissin et al., 2019): GD
sequentially learns solutions with increasing ranks until it recovers the
ground truth matrix. Compared to existing works which only analyze the first
learning phase for rank-1 solutions, our result provides characterizations for
the whole learning process. Moreover, besides the over-parameterized regime
that many prior works focused on, our analysis of the incremental learning
procedure also applies to the under-parameterized regime. Finally, we conduct
numerical experiments to confirm our theoretical findings.
- Abstract(参考訳): 勾配降下(gd)は機械学習モデルのトレーニングにおいて、優れた一般化に向けて暗黙のバイアスを引き起こすと考えられている。
本稿では,準等方性線形測定から低位接地面行列を回収することを目的とした,行列センシング問題に対するgdのダイナミクスのきめ細かな解析を行う。
初期化が小さいgdは欲望の低い低ランク学習ヒューリスティックス(li et al., 2020)と同様に振る舞うことが示され、漸進学習手順(gissin et al., 2019)に従う。
rank-1ソリューションの最初の学習フェーズのみを分析する既存の作品と比較して,本研究は学習プロセス全体の特徴付けを提供する。
さらに,多くの先行研究が注目する過度なパラメータ化体制に加えて,段階的な学習手順の分析も過度パラメータ化体制に適用した。
最後に,理論的な結果を確認する数値実験を行った。
関連論文リスト
- The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Implicit Balancing and Regularization: Generalization and Convergence
Guarantees for Overparameterized Asymmetric Matrix Sensing [28.77440901439686]
最近の一連の論文は、非ランダムな正準決定(PSD)行列センシング問題に対して、この役割を一般化し始めている。
本稿では,小さなランダムな測定から得られる勾配降下の軌跡が,どちらも地球規模で良好である解へと移動することを示す。
論文 参考訳(メタデータ) (2023-03-24T19:05:52Z) - A Dynamics Theory of Implicit Regularization in Deep Low-Rank Matrix
Factorization [21.64166573203593]
暗黙の正則化は、ニューラルネットワークを解釈する重要な方法である。
最近の理論は、深い行列分解(DMF)モデルで暗黙の正則化を説明するようになった。
論文 参考訳(メタデータ) (2022-12-29T02:11:19Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Provable Generalization of Overparameterized Meta-learning Trained with
SGD [62.892930625034374]
我々は、広く使われているメタラーニング手法、モデル非依存メタラーニング(MAML)の一般化について研究する。
我々は、MAMLの過大なリスクに対して、上界と下界の両方を提供し、SGDダイナミクスがこれらの一般化境界にどのように影響するかをキャプチャする。
理論的知見は実験によってさらに検証される。
論文 参考訳(メタデータ) (2022-06-18T07:22:57Z) - Gradient Descent for Deep Matrix Factorization: Dynamics and Implicit
Bias towards Low Rank [1.9350867959464846]
ディープラーニングでは、勾配発散は、よく一般化する解を好む傾向にある。
本稿では,線形ネットワークの簡易化における勾配降下のダイナミクスと推定問題について解析する。
論文 参考訳(メタデータ) (2020-11-27T15:08:34Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。