論文の概要: Beyond Zero Initialization: Investigating the Impact of Non-Zero Initialization on LoRA Fine-Tuning Dynamics
- arxiv url: http://arxiv.org/abs/2505.23194v1
- Date: Thu, 29 May 2025 07:33:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.745224
- Title: Beyond Zero Initialization: Investigating the Impact of Non-Zero Initialization on LoRA Fine-Tuning Dynamics
- Title(参考訳): ゼロ初期化を超えて - LoRAファインチューニングダイナミクスにおける非ゼロ初期化の影響の検討
- Authors: Shiwei Li, Xiandi Luo, Xing Tang, Haozhao Wang, Hao Chen, Weihong Luo, Yuhua Li, Xiuqiang He, Ruixuan Li,
- Abstract要約: 低ランク適応(LoRA)はパラメータ効率のよい微調整法として広く用いられている。
標準的なLoRA層では、行列の1つである$A$または$B$はゼロであり、事前訓練されたモデルから微調整が始まります。
- 参考スコア(独自算出の注目度): 23.84827135317107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-rank adaptation (LoRA) is a widely used parameter-efficient fine-tuning method. In standard LoRA layers, one of the matrices, $A$ or $B$, is initialized to zero, ensuring that fine-tuning starts from the pretrained model. However, there is no theoretical support for this practice. In this paper, we investigate the impact of non-zero initialization on LoRA's fine-tuning dynamics from an infinite-width perspective. Our analysis reveals that, compared to zero initialization, simultaneously initializing $A$ and $B$ to non-zero values improves LoRA's robustness to suboptimal learning rates, particularly smaller ones. Further analysis indicates that although the non-zero initialization of $AB$ introduces random noise into the pretrained weight, it generally does not affect fine-tuning performance. In other words, fine-tuning does not need to strictly start from the pretrained model. The validity of our findings is confirmed through extensive experiments across various models and datasets. The code is available at https://github.com/Leopold1423/non_zero_lora-icml25.
- Abstract(参考訳): 低ランク適応(LoRA)はパラメータ効率のよい微調整法として広く用いられている。
標準的なLoRA層では、行列の1つである$A$または$B$が0に初期化され、事前訓練されたモデルから微調整が始まる。
しかし、この慣行に対する理論的支持はない。
本稿では,ゼロでない初期化が LoRA の微調整力学に与える影響を無限幅の観点から検討する。
分析の結果、ゼロ初期化と比較して、$A$と$B$を非ゼロ値に同時に初期化すると、LoRAの低最適学習率、特に小さい学習率に対する堅牢性が向上することがわかった。
さらに分析したところ、$AB$のゼロでない初期化は事前訓練された重量にランダムノイズをもたらすが、通常は微調整性能には影響しない。
言い換えれば、微調整は事前訓練されたモデルから厳密に始める必要はない。
本研究の妥当性は,様々なモデルやデータセットにまたがる広範な実験を通じて確認される。
コードはhttps://github.com/Leopold1423/non_zero_lora-icml25で公開されている。
関連論文リスト
- Initialization using Update Approximation is a Silver Bullet for Extremely Efficient Low-Rank Fine-Tuning [13.823795660384262]
低ランク部分空間内での完全な微調整を近似するLoRA Silver BulletあるいはLoRA-SBを提案する。
これらの結果から,低ランク部分空間において,性能を犠牲にすることなく完全な微調整をシミュレートできることが示唆された。
論文 参考訳(メタデータ) (2024-11-29T09:10:30Z) - CoRA: Optimizing Low-Rank Adaptation with Common Subspace of Large Language Models [7.108651381160281]
Low-Rank Adaptation (LoRA) 戦略は、微調整された大型モデルにおける効率と性能のバランスをとる。
我々は、共有知識を活用してLoRAトレーニングを最適化するtextbfCoRAを提案する。
実験の結果,最初のアプローチは,パラメータの半減よりも効率が良く,元のLoRAファインチューニングと同じ効果が得られることがわかった。
論文 参考訳(メタデータ) (2024-08-31T12:48:27Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - The Impact of Initialization on LoRA Finetuning Dynamics [13.074320303580361]
低位適応(LoRA)における初期化の役割について検討する。
平均収率における最初のスキーム(B から 0 への初期化、A からランダム化)は、他のスキームよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-12T17:38:20Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。