論文の概要: Implicit Balancing and Regularization: Generalization and Convergence
Guarantees for Overparameterized Asymmetric Matrix Sensing
- arxiv url: http://arxiv.org/abs/2303.14244v1
- Date: Fri, 24 Mar 2023 19:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 21:05:45.806811
- Title: Implicit Balancing and Regularization: Generalization and Convergence
Guarantees for Overparameterized Asymmetric Matrix Sensing
- Title(参考訳): 暗黙的バランスと正則化:過パラメータ非対称行列センシングの一般化と収束保証
- Authors: Mahdi Soltanolkotabi, Dominik St\"oger, Changzhi Xie
- Abstract要約: 最近の一連の論文は、非ランダムな正準決定(PSD)行列センシング問題に対して、この役割を一般化し始めている。
本稿では,小さなランダムな測定から得られる勾配降下の軌跡が,どちらも地球規模で良好である解へと移動することを示す。
- 参考スコア(独自算出の注目度): 28.77440901439686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been significant progress in understanding the
convergence and generalization properties of gradient-based methods for
training overparameterized learning models. However, many aspects including the
role of small random initialization and how the various parameters of the model
are coupled during gradient-based updates to facilitate good generalization
remain largely mysterious. A series of recent papers have begun to study this
role for non-convex formulations of symmetric Positive Semi-Definite (PSD)
matrix sensing problems which involve reconstructing a low-rank PSD matrix from
a few linear measurements. The underlying symmetry/PSDness is crucial to
existing convergence and generalization guarantees for this problem. In this
paper, we study a general overparameterized low-rank matrix sensing problem
where one wishes to reconstruct an asymmetric rectangular low-rank matrix from
a few linear measurements. We prove that an overparameterized model trained via
factorized gradient descent converges to the low-rank matrix generating the
measurements. We show that in this setting, factorized gradient descent enjoys
two implicit properties: (1) coupling of the trajectory of gradient descent
where the factors are coupled in various ways throughout the gradient update
trajectory and (2) an algorithmic regularization property where the iterates
show a propensity towards low-rank models despite the overparameterized nature
of the factorized model. These two implicit properties in turn allow us to show
that the gradient descent trajectory from small random initialization moves
towards solutions that are both globally optimal and generalize well.
- Abstract(参考訳): 近年,過パラメータ学習モデルの学習のための勾配型手法の収束特性と一般化特性の理解が著しく進展している。
しかし、小さなランダム初期化の役割や、勾配に基づく更新においてモデルの様々なパラメータがどのように結合されるかといった多くの側面は、良い一般化を促進するためにほとんど謎のままである。
最近の一連の論文は、いくつかの線形測定から低ランクPSD行列の再構成を含む対称正の半定値(PSD)行列の非凸定式化におけるこの役割について研究し始めている。
基礎となる対称性/PSDnessは、この問題に対する既存の収束と一般化の保証に不可欠である。
本稿では,非対称な長方形低ランク行列を線形測定から再構成したいという,一般的な過パラメータ化低ランク行列検出問題について検討する。
偏微分勾配勾配からトレーニングした過パラメータ化モデルが、測定結果を生成する低ランク行列に収束することが証明された。
この設定では,(1)勾配更新軌道を通して因子が様々な方法で結合される勾配勾配の軌道の結合と,(2)係数化モデルの過度な性質にもかかわらず,反復が低ランクモデルに対する正当性を示すアルゴリズム正則性という2つの暗黙的な性質が示される。
これらの2つの暗黙的な性質は、小さなランダム初期化からの勾配降下軌道が、大域的に最適かつ一般化された解へと移動することを示す。
関連論文リスト
- On Learning Gaussian Multi-index Models with Gradient Flow [57.170617397894404]
高次元ガウスデータに対する多次元回帰問題の勾配流について検討する。
低階射影をパラメトリする部分空間よりも、非パラメトリックモデルで低次元リンク関数を無限に高速に学習する2時間スケールのアルゴリズムを考える。
論文 参考訳(メタデータ) (2023-10-30T17:55:28Z) - Provably Accelerating Ill-Conditioned Low-rank Estimation via Scaled
Gradient Descent, Even with Overparameterization [48.65416821017865]
この章では、スケールドグラデーション(ScaledGD)と呼ばれる新しいアルゴリズムアプローチを紹介します。
低ランク物体の条件数に依存しない定数速度で直線的に収束する。
様々なタスクに対して、勾配降下の低い摂動コストを維持できる。
論文 参考訳(メタデータ) (2023-10-09T21:16:57Z) - Asymmetric matrix sensing by gradient descent with small random
initialization [0.8611782340880084]
いくつかの線形測定値から低ランク行列を再構成する問題について検討する。
私たちの重要な貢献は、$texted gradient flow$と呼ぶ連続的な勾配流方程式の導入です。
論文 参考訳(メタデータ) (2023-09-04T20:23:35Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Understanding Incremental Learning of Gradient Descent: A Fine-grained
Analysis of Matrix Sensing [74.2952487120137]
GD(Gradient Descent)は、機械学習モデルにおいて、良い一般化に対する暗黙のバイアスをもたらすと考えられている。
本稿では,行列センシング問題に対するGDのダイナミクスを詳細に解析する。
論文 参考訳(メタデータ) (2023-01-27T02:30:51Z) - Demystifying the Global Convergence Puzzle of Learning
Over-parameterized ReLU Nets in Very High Dimensions [1.3401746329218014]
本稿では,超次元データ学習という難解なシナリオにおいて,グローバル収束現象をデミステマイズするための厳密な理論に焦点をあてる。
この説の主な要素は、それがそれがそれが事実であるということであり、それがそれが事実であるということであり、それが事実であるということであり、それがそれが事実であるということであり、それがそれがそれがそれが事実であるということであるということである、というものである。
論文 参考訳(メタデータ) (2022-06-05T02:14:21Z) - Small random initialization is akin to spectral learning: Optimization
and generalization guarantees for overparameterized low-rank matrix
reconstruction [35.585697639325105]
本稿では,小さなランダム初期化が完全には理解されていないことを示す。
我々は、小さな乱数行列から勾配を再構成し、低い乱数行列から最適勾配に類似した解を求める。
論文 参考訳(メタデータ) (2021-06-28T22:52:39Z) - Beyond Procrustes: Balancing-Free Gradient Descent for Asymmetric
Low-Rank Matrix Sensing [36.96922859748537]
低ランク行列推定は、科学と工学のさまざまなアプリケーションで中心的な役割を果たします。
既存のアプローチは、2つの行列因子のスケールのバランスをとるために計量正規化項を加えることに頼っている。
本論文では,低ランク行列の線形測定値の少ない値から回復する性能の理論的正当化について述べる。
論文 参考訳(メタデータ) (2021-01-13T15:03:52Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - Semiparametric Nonlinear Bipartite Graph Representation Learning with
Provable Guarantees [106.91654068632882]
半パラメトリック指数族分布におけるパラメータの統計的推定問題として、両部グラフを考察し、その表現学習問題を定式化する。
提案手法は, 地中真理付近で強い凸性を示すため, 勾配降下法が線形収束率を達成できることを示す。
我々の推定器は指数族内の任意のモデル誤特定に対して頑健であり、広範な実験で検証されている。
論文 参考訳(メタデータ) (2020-03-02T16:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。