論文の概要: On the Crucial Role of Initialization for Matrix Factorization
- arxiv url: http://arxiv.org/abs/2410.18965v2
- Date: Sun, 08 Dec 2024 17:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:47:09.106475
- Title: On the Crucial Role of Initialization for Matrix Factorization
- Title(参考訳): 行列因子化の初期化の地殻的役割について
- Authors: Bingcong Li, Liang Zhang, Aryan Mokhtari, Niao He,
- Abstract要約: この研究は古典的低ランク行列分解問題を再考し、整合率の形成における初期化の重要な役割を明らかにする。
我々はNystrom NyGDを対称非対称行列分解タスクに導入し、ローランクアダプタ(LoRA)に拡張する。
提案手法は,大規模言語および拡散モデルにおいて,1Bから7Bパラメータに至るまで,様々なダウンストリームおよびモデルスケールで優れた性能を示す。
- 参考スコア(独自算出の注目度): 40.834791383134416
- License:
- Abstract: This work revisits the classical low-rank matrix factorization problem and unveils the critical role of initialization in shaping convergence rates for such nonconvex and nonsmooth optimization. We introduce Nystrom initialization, which significantly improves the global convergence of Scaled Gradient Descent (ScaledGD) in both symmetric and asymmetric matrix factorization tasks. Specifically, we prove that ScaledGD with Nystrom initialization achieves quadratic convergence in cases where only linear rates were previously known. Furthermore, we extend this initialization to low-rank adapters (LoRA) commonly used for finetuning foundation models. Our approach, NoRA, i.e., LoRA with Nystrom initialization, demonstrates superior performance across various downstream tasks and model scales, from 1B to 7B parameters, in large language and diffusion models.
- Abstract(参考訳): この研究は古典的低ランク行列分解問題を再考し、そのような非凸および非滑らかな最適化に対する収束率の整形における初期化の重要な役割を明らかにする。
我々はNystrom初期化を導入し、対称および非対称行列因数分解タスクにおけるスケールドグラディエントDescent(ScaledGD)のグローバル収束を著しく改善する。
具体的には、Nystromの初期化を伴うScaledGDが、以前に線形レートのみが知られていた場合の二次収束を実現することを証明している。
さらに,この初期化を,ファウンデーションモデルの微調整によく使用されるローランクアダプタ (LoRA) に拡張する。
我々のアプローチであるNystrom初期化のLoRAは、大規模言語や拡散モデルにおいて、1Bから7Bパラメータまで、様々なダウンストリームタスクとモデルスケールで優れた性能を示す。
関連論文リスト
- Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - The Decimation Scheme for Symmetric Matrix Factorization [0.0]
行列分解(Matrix factorization)は、その広範囲な応用により重要になった推論問題である。
我々はこの広範囲なランク問題について研究し、最近導入した代替の「決定」手順を拡張した。
本稿では,デシメーションを実装し,行列分解を行う基底状態探索に基づく簡単なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:53:45Z) - Gradient descent in matrix factorization: Understanding large initialization [6.378022003282206]
このフレームワークは信号対雑音比の概念と帰納的議論に基づいている。
その結果、GDにおける暗黙的な漸進的な学習現象が明らかとなり、大きなシナリオにおけるそのパフォーマンスをより深く理解することが可能になる。
論文 参考訳(メタデータ) (2023-05-30T16:55:34Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - On the Implicit Bias of Initialization Shape: Beyond Infinitesimal
Mirror Descent [55.96478231566129]
学習モデルを決定する上で,相対スケールが重要な役割を果たすことを示す。
勾配流の誘導バイアスを導出する手法を開発した。
論文 参考訳(メタデータ) (2021-02-19T07:10:48Z) - Pushing the Envelope of Rotation Averaging for Visual SLAM [69.7375052440794]
視覚SLAMシステムのための新しい最適化バックボーンを提案する。
従来の単分子SLAMシステムの精度, 効率, 堅牢性を向上させるために, 平均化を活用している。
我々のアプローチは、公開ベンチマークの最先端技術に対して、同等の精度で最大10倍高速に表示することができる。
論文 参考訳(メタデータ) (2020-11-02T18:02:26Z) - Renormalization for Initialization of Rolling Shutter Visual-Inertial
Odometry [5.33024001730262]
初期化は慣性信号を使用し、それらを視覚データと融合させるための前提条件である。
カナタニの正規化スキームに投入することで、視覚的および慣性的データに関する問題を同時に解決する新しい統計解を提案する。
地上の真実に関する広範囲な評価は、当初提案されたLast Squaresソリューションよりも優れた性能と最大20%の精度の向上を示している。
論文 参考訳(メタデータ) (2020-08-14T14:54:15Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。