論文の概要: Understanding the Learning Dynamics of LoRA: A Gradient Flow Perspective on Low-Rank Adaptation in Matrix Factorization
- arxiv url: http://arxiv.org/abs/2503.06982v1
- Date: Mon, 10 Mar 2025 06:57:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:17.872297
- Title: Understanding the Learning Dynamics of LoRA: A Gradient Flow Perspective on Low-Rank Adaptation in Matrix Factorization
- Title(参考訳): LoRAの学習ダイナミクスの理解:行列分解における低ランク適応のグラディエントフローパースペクティブ
- Authors: Ziqing Xu, Hancheng Min, Lachlan Ewen MacDonald, Jinqi Luo, Salma Tarmoun, Enrique Mallada, Rene Vidal,
- Abstract要約: 我々は、勾配流(GF)下での行列分解のためのローランド適応(LoRA)の学習ダイナミクスを解析する。
解析の結果,最終誤差は,事前学習されたモデルの特異空間と対象行列との間の不整合によって影響を受けることがわかった。
- 参考スコア(独自算出の注目度): 7.940066909711888
- License:
- Abstract: Despite the empirical success of Low-Rank Adaptation (LoRA) in fine-tuning pre-trained models, there is little theoretical understanding of how first-order methods with carefully crafted initialization adapt models to new tasks. In this work, we take the first step towards bridging this gap by theoretically analyzing the learning dynamics of LoRA for matrix factorization (MF) under gradient flow (GF), emphasizing the crucial role of initialization. For small initialization, we theoretically show that GF converges to a neighborhood of the optimal solution, with smaller initialization leading to lower final error. Our analysis shows that the final error is affected by the misalignment between the singular spaces of the pre-trained model and the target matrix, and reducing the initialization scale improves alignment. To address this misalignment, we propose a spectral initialization for LoRA in MF and theoretically prove that GF with small spectral initialization converges to the fine-tuning task with arbitrary precision. Numerical experiments from MF and image classification validate our findings.
- Abstract(参考訳): 微調整事前学習モデルにおけるLoRA(Lo-Rank Adaptation)の実証的な成功にもかかわらず、厳密な初期化を施した一階法が新しいタスクにどのように適応するかの理論的理解はほとんどない。
本研究では,このギャップを埋める第一歩として,勾配流(GF)下での行列分解(MF)におけるLoRAの学習力学を理論的に解析し,初期化の重要な役割を強調する。
小さな初期化に対しては、GF が最適解の近傍に収束し、より小さな初期化が最終誤差を小さくすることを示す。
解析の結果,事前学習されたモデルと対象行列の特異空間間の不整合によって最終誤差が影響を受けることが明らかとなり,初期化スケールの低減によりアライメントが向上することがわかった。
このミスアライメントに対処するために、MF における LoRA のスペクトル初期化を提案し、スペクトル初期化が小さい GF が任意の精度で微調整タスクに収束することを理論的に証明する。
MFおよび画像分類による数値実験により,本研究の妥当性が検証された。
関連論文リスト
- One-step full gradient suffices for low-rank fine-tuning, provably and efficiently [10.843508549704959]
本稿では,Low-Rank Adaption (LoRA) の性能向上を理論的に検討する。
提案手法は,emphLoRA-Oneアルゴリズム(emphワンステップ勾配とプレコンディショニングを用いた)に導かれる。
論文 参考訳(メタデータ) (2025-02-03T10:50:03Z) - On the Crucial Role of Initialization for Matrix Factorization [40.834791383134416]
この研究は古典的低ランク行列分解問題を再考し、整合率の形成における初期化の重要な役割を明らかにする。
我々はNystrom NyGDを対称非対称行列分解タスクに導入し、ローランクアダプタ(LoRA)に拡張する。
提案手法は,大規模言語および拡散モデルにおいて,1Bから7Bパラメータに至るまで,様々なダウンストリームおよびモデルスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-24T17:58:21Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - Gradient descent in matrix factorization: Understanding large initialization [6.378022003282206]
このフレームワークは信号対雑音比の概念と帰納的議論に基づいている。
その結果、GDにおける暗黙的な漸進的な学習現象が明らかとなり、大きなシナリオにおけるそのパフォーマンスをより深く理解することが可能になる。
論文 参考訳(メタデータ) (2023-05-30T16:55:34Z) - Understanding Incremental Learning of Gradient Descent: A Fine-grained
Analysis of Matrix Sensing [74.2952487120137]
GD(Gradient Descent)は、機械学習モデルにおいて、良い一般化に対する暗黙のバイアスをもたらすと考えられている。
本稿では,行列センシング問題に対するGDのダイナミクスを詳細に解析する。
論文 参考訳(メタデータ) (2023-01-27T02:30:51Z) - Learning with Multiclass AUC: Theory and Algorithms [141.63211412386283]
ROC曲線 (AUC) の下の領域は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。
本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。
論文 参考訳(メタデータ) (2021-07-28T05:18:10Z) - Small random initialization is akin to spectral learning: Optimization
and generalization guarantees for overparameterized low-rank matrix
reconstruction [35.585697639325105]
本稿では,小さなランダム初期化が完全には理解されていないことを示す。
我々は、小さな乱数行列から勾配を再構成し、低い乱数行列から最適勾配に類似した解を求める。
論文 参考訳(メタデータ) (2021-06-28T22:52:39Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - On the Implicit Bias of Initialization Shape: Beyond Infinitesimal
Mirror Descent [55.96478231566129]
学習モデルを決定する上で,相対スケールが重要な役割を果たすことを示す。
勾配流の誘導バイアスを導出する手法を開発した。
論文 参考訳(メタデータ) (2021-02-19T07:10:48Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。