論文の概要: LoRA Training Provably Converges to a Low-Rank Global Minimum or It Fails Loudly (But it Probably Won't Fail)
- arxiv url: http://arxiv.org/abs/2502.09376v2
- Date: Fri, 14 Feb 2025 02:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:45:12.668766
- Title: LoRA Training Provably Converges to a Low-Rank Global Minimum or It Fails Loudly (But it Probably Won't Fail)
- Title(参考訳): LoRAのトレーニングは、おそらく低レベルな世界最小限に収束するか、大声で失敗するか(でも、おそらく失敗しないだろう)
- Authors: Junsu Kim, Jaeyeon Kim, Ernest K. Ryu,
- Abstract要約: 低ランク適応 (LoRA) は、大規模な基礎モデルを微調整するための標準的アプローチとなっている。
また,LoRAトレーニングは,低ランクで大小のグローバル・ミニマライザに収束することを示した。
LoRAトレーニングにおけるゼロ初期化と重み劣化は、低ランクで小さなマグニチュード領域に対して暗黙の偏りを生じさせると論じる。
- 参考スコア(独自算出の注目度): 15.381439594872898
- License:
- Abstract: Low-rank adaptation (LoRA) has become a standard approach for fine-tuning large foundation models. However, our theoretical understanding of LoRA remains limited as prior analyses of LoRA's training dynamics either rely on linearization arguments or consider highly simplified setups. In this work, we analyze the LoRA loss landscape without such restrictive assumptions. We define two regimes: a ``special regime'', which includes idealized setups where linearization arguments hold, and a ``generic regime'' representing more realistic setups where linearization arguments do not hold. In the generic regime, we show that LoRA training converges to a global minimizer with low rank and small magnitude, or a qualitatively distinct solution with high rank and large magnitude. Finally, we argue that the zero-initialization and weight decay in LoRA training induce an implicit bias toward the low-rank, small-magnitude region of the parameter space -- where global minima lie -- thus shedding light on why LoRA training usually succeeds in finding global minima.
- Abstract(参考訳): 低ランク適応 (LoRA) は、大規模な基礎モデルを微調整するための標準的アプローチとなっている。
しかし、ロラのトレーニング力学の事前解析は線形化の議論に依存するか、高度に単純化された設定を考えるかのいずれかであるので、ロラの理論的理解は依然として限られている。
本研究では,ロラの損失景観をそのような制約的な仮定を伴わずに解析する。
線形化論証が持たない理想化されたセットアップと、線型化論証が持たないより現実的なセットアップを表す‘ジェネリック・レジーム’という2つのレジームを定義する。
一般の制度では,LoRAトレーニングは低ランクで大小のグローバル・ミニマライザ,あるいは高ランクで大きめの定性的に異なる解に収束することを示す。
最後に、LoRAトレーニングにおけるゼロ初期化とウェイト崩壊は、グローバルミニマが横たわるパラメータ空間の低ランクで小さなマグニチュード領域に対して暗黙の偏りを生じさせるので、LoRAトレーニングが通常グローバルミニマを見つけることに成功する理由を明かす。
関連論文リスト
- ALLoRA: Adaptive Learning Rate Mitigates LoRA Fatal Flaws [14.17396731469533]
Low-Rank Adaptation (LoRA)は、Large Language Modelファインタニングのパンとバターである。
LoRAの微調整には,データ量やトレーニング手順の制限が3つあります。
私たちは、Adaptive Learning rate-coined ALLoRAを使ったDropout-free、スケーリングなし、LoRAというエレガントなソリューションを見つけました。
論文 参考訳(メタデータ) (2024-10-13T01:57:38Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - LoRA Learns Less and Forgets Less [25.09261710396838]
Low-Rank Adaptation (LoRA) は、大規模言語モデルのパラメータ効率の高い微調整法である。
プログラムと数学の2つの対象領域におけるLoRAの性能と完全な微調整を比較した。
論文 参考訳(メタデータ) (2024-05-15T19:27:45Z) - PeriodicLoRA: Breaking the Low-Rank Bottleneck in LoRA Optimization [39.30090456724925]
監視された微調整は、下流タスクに大規模言語モデル(LLM)を適用する最も一般的な方法である。
完全な微調整には膨大な計算資源が必要である。
LoRAは最も広く使われている手法の1つであり、最適化過程は本質的に低次元であると仮定する。
論文 参考訳(メタデータ) (2024-02-25T16:43:41Z) - LoRA Training in the NTK Regime has No Spurious Local Minima [46.46792977614938]
低ランク適応(LoRA)は,大規模言語モデルのパラメータ効率向上のための標準手法となっている。
理論的には、ニューラルネットワークカーネルシステムにおけるLoRA微調整を$N$のデータポイントで解析する。
論文 参考訳(メタデータ) (2024-02-19T06:22:09Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - The Expressive Power of Low-Rank Adaptation [11.371811534310078]
パラメータ効率のよい微調整法である低ランク適応は、微調整事前学習モデルの代表的な手法として登場した。
本稿では,LoRAの表現力を理論的に解析することで,ギャップを埋める第一歩を踏み出す。
トランスフォーマーネットワークでは、任意のモデルが、ランク=$(fractextembedding size2)$ LoRAで同じサイズのターゲットモデルに適応可能であることを示す。
論文 参考訳(メタデータ) (2023-10-26T16:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。