論文の概要: Fast global convergence of gradient descent for low-rank matrix
approximation
- arxiv url: http://arxiv.org/abs/2305.19206v1
- Date: Tue, 30 May 2023 16:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 14:56:55.736123
- Title: Fast global convergence of gradient descent for low-rank matrix
approximation
- Title(参考訳): 低ランク行列近似に対する勾配降下の高速大域収束
- Authors: Hengchao Chen, Xin Chen, Mohamad Elmasri, Qiang Sun
- Abstract要約: 我々は、特に小さなランダム値で達成された場合、勾配降下の急速な大域収束を証明した。
我々は,非対称行列近似問題に対処するために解析を拡張し,リトラクションフリーな固有空間計算法の有効性について検討する。
- 参考スコア(独自算出の注目度): 3.8725717612267774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates gradient descent for solving low-rank matrix
approximation problems. We begin by establishing the local linear convergence
of gradient descent for symmetric matrix approximation. Building on this
result, we prove the rapid global convergence of gradient descent, particularly
when initialized with small random values. Remarkably, we show that even with
moderate random initialization, which includes small random initialization as a
special case, gradient descent achieves fast global convergence in scenarios
where the top eigenvalues are identical. Furthermore, we extend our analysis to
address asymmetric matrix approximation problems and investigate the
effectiveness of a retraction-free eigenspace computation method. Numerical
experiments strongly support our theory. In particular, the retraction-free
algorithm outperforms the corresponding Riemannian gradient descent method,
resulting in a significant 29\% reduction in runtime.
- Abstract(参考訳): 本稿では,低ランク行列近似問題の解法における勾配勾配について検討する。
まず、対称行列近似に対する勾配降下の局所線型収束を確立することから始める。
この結果に基づき, 勾配降下の急速大域収束を, 特に小さなランダム値で初期化した場合に証明する。
特例として小さなランダム初期化を含む適度なランダム初期化であっても、勾配降下は、最上位固有値が同一のシナリオにおいて高速な大域収束を達成する。
さらに,非対称行列近似問題に対する解析を拡張し,レトラクションフリー固有空間計算法の有効性について検討する。
数値実験は我々の理論を強く支持する。
特に、retraction-freeアルゴリズムは対応するリーマン勾配降下法を上回り、その結果、実行時間の29\%減少する。
関連論文リスト
- On the Crucial Role of Initialization for Matrix Factorization [40.834791383134416]
この研究は古典的低ランク行列分解問題を再考し、整合率の形成における初期化の重要な役割を明らかにする。
我々はNystrom NyGDを対称非対称行列分解タスクに導入し、ローランクアダプタ(LoRA)に拡張する。
提案手法は,大規模言語および拡散モデルにおいて,1Bから7Bパラメータに至るまで,様々なダウンストリームおよびモデルスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-24T17:58:21Z) - Implicit regularization in AI meets generalized hardness of
approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。
これを近似の一般化硬度における相転移現象と関連付ける。
結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文 参考訳(メタデータ) (2023-07-13T13:27:51Z) - Understanding Incremental Learning of Gradient Descent: A Fine-grained
Analysis of Matrix Sensing [74.2952487120137]
GD(Gradient Descent)は、機械学習モデルにおいて、良い一般化に対する暗黙のバイアスをもたらすと考えられている。
本稿では,行列センシング問題に対するGDのダイナミクスを詳細に解析する。
論文 参考訳(メタデータ) (2023-01-27T02:30:51Z) - Rank-1 Matrix Completion with Gradient Descent and Small Random
Initialization [15.127728811011245]
我々は,GDの暗黙的正規化が分析において重要な役割を担っていることを示す。
我々は、手頃な分析において暗黙の正規化GDが重要な役割を担っていることを観察する。
論文 参考訳(メタデータ) (2022-12-19T12:05:37Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - On the Implicit Bias of Initialization Shape: Beyond Infinitesimal
Mirror Descent [55.96478231566129]
学習モデルを決定する上で,相対スケールが重要な役割を果たすことを示す。
勾配流の誘導バイアスを導出する手法を開発した。
論文 参考訳(メタデータ) (2021-02-19T07:10:48Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Provable Benefit of Orthogonal Initialization in Optimizing Deep Linear
Networks [39.856439772974454]
グローバル最小値への効率的な収束に必要な幅は, 深さに依存しないことを示す。
この結果から, 非線形ネットワークの初期化による最近の経験的成功について, 動的アイソメトリの原理による説明が得られた。
論文 参考訳(メタデータ) (2020-01-16T18:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。