Fugu-MT 論文翻訳(概要): On the Crucial Role of Initialization for Matrix Factorization

論文の概要: On the Crucial Role of Initialization for Matrix Factorization

arxiv url: http://arxiv.org/abs/2410.18965v1
Date: Thu, 24 Oct 2024 17:58:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.061507
Title: On the Crucial Role of Initialization for Matrix Factorization
Title（参考訳）: 行列因子化の初期化の地殻的役割について
Authors: Bingcong Li, Liang Zhang, Aryan Mokhtari, Niao He,
Abstract要約: この研究は古典的低ランク行列分解問題を再考し、整合率の形成における初期化の重要な役割を明らかにする。我々はNystrom NyGDを対称非対称行列分解タスクに導入し、ローランクアダプタ(LoRA)に拡張する。提案手法は,大規模言語および拡散モデルにおいて,1Bから7Bパラメータに至るまで,様々なダウンストリームおよびモデルスケールで優れた性能を示す。
参考スコア（独自算出の注目度）: 40.834791383134416
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This work revisits the classical low-rank matrix factorization problem and unveils the critical role of initialization in shaping convergence rates for such nonconvex and nonsmooth optimization. We introduce Nystrom initialization, which significantly improves the global convergence of Scaled Gradient Descent (ScaledGD) in both symmetric and asymmetric matrix factorization tasks. Specifically, we prove that ScaledGD with Nystrom initialization achieves quadratic convergence in cases where only linear rates were previously known. Furthermore, we extend this initialization to low-rank adapters (LoRA) commonly used for finetuning foundation models. Our approach, NoRA, i.e., LoRA with Nystrom initialization, demonstrates superior performance across various downstream tasks and model scales, from 1B to 7B parameters, in large language and diffusion models.
Abstract（参考訳）: この研究は古典的低ランク行列分解問題を再考し、そのような非凸および非滑らかな最適化に対する収束率の整形における初期化の重要な役割を明らかにする。我々はNystrom初期化を導入し、対称および非対称行列因数分解タスクにおけるスケールドグラディエントDescent(ScaledGD)のグローバル収束を著しく改善する。具体的には、Nystromの初期化を伴うScaledGDが、以前に線形レートのみが知られていた場合の二次収束を実現することを証明している。さらに,この初期化を,ファウンデーションモデルの微調整によく使用されるローランクアダプタ (LoRA) に拡張する。我々のアプローチであるNystrom初期化のLoRAは、大規模言語や拡散モデルにおいて、1Bから7Bパラメータまで、様々なダウンストリームタスクとモデルスケールで優れた性能を示す。

関連論文リスト

ODELoRA: Training Low-Rank Adaptation by Solving Ordinary Differential Equations [54.886931928255564]
低ランク適応(LoRA)は、深層移動学習においてパラメータ効率の高い微調整法として広く採用されている。常微分方程式(ODE)の形でLoRA因子行列に対する新しい連続時間最適化ダイナミクスを提案する。 ODELoRAは,問題次元の異なるスケールのディープニューラルネットワークのトレーニングに不可欠な特性である,安定した特徴学習を実現する。
論文参考訳（メタデータ） (2026-02-07T10:19:36Z)
LoRA-DA: Data-Aware Initialization for Low-Rank Adaptation via Asymptotic Analysis [33.708800231646606]
データ認識型LoRAの理論的枠組みを確立した。そこで我々は,目標領域の少数のサンプルから最適化問題の項を推定するアルゴリズムLoRA-DAを開発した。さらなる研究により、より速く、より安定な収束、ランク間の堅牢性、LoRA-DAのオーバーヘッドはわずかである。
論文参考訳（メタデータ） (2025-10-28T15:55:36Z)
RiemannLoRA: A Unified Riemannian Framework for Ambiguity-Free LoRA Optimization [37.56200829761571]
Low-Rank Adaptation (LoRA) は、大規模言語モデルのパラメータ効率の高い微調整の標準として広く採用されている。統一されたフレームワーク内で両課題を同時に解決する新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-07-16T11:17:12Z)
ConsNoTrainLoRA: Data-driven Weight Initialization of Low-rank Adapters using Constraints [64.35580479051208]
以前の作品では、ローランクアダプタ (LoRA) はすべてのアタッチメントポイントに対してランダムに固定されたランクである。本稿では,データ駆動重み初期化法を用いて,LoRAファインチューニングの収束性と最終性能を改善する。
論文参考訳（メタデータ） (2025-07-09T23:52:31Z)
The Primacy of Magnitude in Low-Rank Adaptation [15.583380841988868]
Low-Rank Adaptation (LoRA) は、大きなモデルをチューニングするためのパラメータ効率のパラダイムを提供する。非効率なスペクトル法にマッチする等級駆動型Basis & BasisスキームであるLoRAMを提案する。
論文参考訳（メタデータ） (2025-07-09T05:25:24Z)
Understanding the Learning Dynamics of LoRA: A Gradient Flow Perspective on Low-Rank Adaptation in Matrix Factorization [7.940066909711888]
我々は、勾配流(GF)下での行列分解のためのローランド適応(LoRA)の学習ダイナミクスを解析する。解析の結果,最終誤差は,事前学習されたモデルの特異空間と対象行列との間の不整合によって影響を受けることがわかった。
論文参考訳（メタデータ） (2025-03-10T06:57:10Z)
GP-FL: Model-Based Hessian Estimation for Second-Order Over-the-Air Federated Learning [52.295563400314094]
2次法は学習アルゴリズムの収束率を改善するために広く採用されている。本稿では,無線チャネルに適した新しい2次FLフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-05T04:27:41Z)
Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。 LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-10T18:51:53Z)
The Decimation Scheme for Symmetric Matrix Factorization [0.0]
行列分解(Matrix factorization)は、その広範囲な応用により重要になった推論問題である。我々はこの広範囲なランク問題について研究し、最近導入した代替の「決定」手順を拡張した。本稿では,デシメーションを実装し,行列分解を行う基底状態探索に基づく簡単なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:53:45Z)
Gradient descent in matrix factorization: Understanding large initialization [6.378022003282206]
このフレームワークは信号対雑音比の概念と帰納的議論に基づいている。その結果、GDにおける暗黙的な漸進的な学習現象が明らかとなり、大きなシナリオにおけるそのパフォーマンスをより深く理解することが可能になる。
論文参考訳（メタデータ） (2023-05-30T16:55:34Z)
On the Explicit Role of Initialization on the Convergence and Implicit Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。正方形損失はその最適値に指数関数的に収束することを示す。我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文参考訳（メタデータ） (2021-05-13T15:13:51Z)
On the Implicit Bias of Initialization Shape: Beyond Infinitesimal Mirror Descent [55.96478231566129]
学習モデルを決定する上で,相対スケールが重要な役割を果たすことを示す。勾配流の誘導バイアスを導出する手法を開発した。
論文参考訳（メタデータ） (2021-02-19T07:10:48Z)
Pushing the Envelope of Rotation Averaging for Visual SLAM [69.7375052440794]
視覚SLAMシステムのための新しい最適化バックボーンを提案する。従来の単分子SLAMシステムの精度, 効率, 堅牢性を向上させるために, 平均化を活用している。我々のアプローチは、公開ベンチマークの最先端技術に対して、同等の精度で最大10倍高速に表示することができる。
論文参考訳（メタデータ） (2020-11-02T18:02:26Z)
Renormalization for Initialization of Rolling Shutter Visual-Inertial Odometry [5.33024001730262]
初期化は慣性信号を使用し、それらを視覚データと融合させるための前提条件である。カナタニの正規化スキームに投入することで、視覚的および慣性的データに関する問題を同時に解決する新しい統計解を提案する。地上の真実に関する広範囲な評価は、当初提案されたLast Squaresソリューションよりも優れた性能と最大20%の精度の向上を示している。
論文参考訳（メタデータ） (2020-08-14T14:54:15Z)
Understanding Implicit Regularization in Over-Parameterized Single Index Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。暗黙正則化現象の理論的保証を提供する。
論文参考訳（メタデータ） (2020-07-16T13:27:47Z)
Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。 Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文参考訳（メタデータ） (2020-04-20T18:12:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。