論文の概要: Towards Resolving the Implicit Bias of Gradient Descent for Matrix
Factorization: Greedy Low-Rank Learning
- arxiv url: http://arxiv.org/abs/2012.09839v2
- Date: Sun, 11 Apr 2021 12:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 12:40:52.909633
- Title: Towards Resolving the Implicit Bias of Gradient Descent for Matrix
Factorization: Greedy Low-Rank Learning
- Title(参考訳): マトリックスファクトリー化のためのグラディエント・ディグエント・バイアスの解決に向けて--Greedy Low-Rank Learning
- Authors: Zhiyuan Li, Yuping Luo, Kaifeng Lyu
- Abstract要約: マトリックスファクタリゼーションは、降下勾配の暗黙の正規化を調べるためのシンプルで自然なテストベッドです。
深さ2行列分解では、無限小初期化を伴う流れは単純な階数最小化アルゴリズムと数学的に等価であることを示す。
- 参考スコア(独自算出の注目度): 19.82453283089643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Matrix factorization is a simple and natural test-bed to investigate the
implicit regularization of gradient descent. Gunasekar et al. (2017)
conjectured that Gradient Flow with infinitesimal initialization converges to
the solution that minimizes the nuclear norm, but a series of recent papers
argued that the language of norm minimization is not sufficient to give a full
characterization for the implicit regularization. In this work, we provide
theoretical and empirical evidence that for depth-2 matrix factorization,
gradient flow with infinitesimal initialization is mathematically equivalent to
a simple heuristic rank minimization algorithm, Greedy Low-Rank Learning, under
some reasonable assumptions. This generalizes the rank minimization view from
previous works to a much broader setting and enables us to construct
counter-examples to refute the conjecture from Gunasekar et al. (2017). We also
extend the results to the case where depth $\ge 3$, and we show that the
benefit of being deeper is that the above convergence has a much weaker
dependence over initialization magnitude so that this rank minimization is more
likely to take effect for initialization with practical scale.
- Abstract(参考訳): 行列分解は、勾配降下の暗黙の正則化を調べるための単純で自然なテストベッドである。
gunasekar et alの略。
(2017) は無限小初期化を伴う勾配流は核ノルムを最小化する解に収束すると予想したが、最近の一連の論文ではノルム最小化の言語は暗黙の正則化の完全な特徴を与えるには不十分であると主張した。
本研究では, 深さ-2 行列分解において, 無限小初期化を伴う勾配流は, 単純ヒューリスティックな階数最小化アルゴリズムである greedy low-rank learning と数学的に等価であることを示す。
これは、以前の作品からより広い設定までランクの最小化の視点を一般化し、gunasekarらからの予想を反論する反例を構築することができる。
(2017).
また、深さ$\ge 3$の場合にも結果を拡張し、より深くなることの利点は、上記の収束が初期化の大きさよりもはるかに弱い依存を持ち、このランクの最小化が実際的なスケールでの初期化に効果を持つ可能性が高いことである。
関連論文リスト
- Non-convex matrix sensing: Breaking the quadratic rank barrier in the sample complexity [11.412228884390784]
いくつかの測定値から低ランク2次凸行列を再構成する問題について検討した。
スペクトル特異性を持つ分解勾配は標本数と真理に収束することを示す。
論文 参考訳(メタデータ) (2024-08-20T14:09:28Z) - Deep linear networks for regression are implicitly regularized towards flat minima [4.806579822134391]
最小化器は任意に大きいシャープ性を持つが、任意に小さいものは持たない。
最小化器のシャープネスは, 深さとともに線形に成長する。
平らなミニマに対して暗黙の正則性を示す: 最小化器の鋭さは下界の1倍以下である。
論文 参考訳(メタデータ) (2024-05-22T08:58:51Z) - Riemannian stochastic optimization methods avoid strict saddle points [68.80251170757647]
研究中のポリシーは、確率 1 の厳密なサドル点/部分多様体を避けていることを示す。
この結果は、アルゴリズムの極限状態が局所最小値にしかならないことを示すため、重要な正当性チェックを提供する。
論文 参考訳(メタデータ) (2023-11-04T11:12:24Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Noisy Gradient Descent Converges to Flat Minima for Nonconvex Matrix
Factorization [36.182992409810446]
本稿では,非最適化問題における雑音の重要性について考察する。
勾配勾配勾配は、入射雑音によって決定される大域バイアスに収束する任意の大域的な形式に収束できることを示す。
論文 参考訳(メタデータ) (2021-02-24T17:50:17Z) - Gradient Free Minimax Optimization: Variance Reduction and Faster
Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。
本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文 参考訳(メタデータ) (2020-06-16T17:55:46Z) - Accelerating Ill-Conditioned Low-Rank Matrix Estimation via Scaled
Gradient Descent [34.0533596121548]
低ランク行列推定は凸問題を収束させ、信号処理、機械学習、画像科学に多くの応用を見出す。
低ランク行列の個数の観点から,ScaledGDが最良となることを示す。
我々の分析は、低ランク勾配降下に類似した一般損失にも適用できる。
論文 参考訳(メタデータ) (2020-05-18T17:17:16Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。