論文の概要: HRP: High-Rank Preheating for Superior LoRA Initialization
- arxiv url: http://arxiv.org/abs/2502.07739v3
- Date: Mon, 26 May 2025 08:53:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:53.31703
- Title: HRP: High-Rank Preheating for Superior LoRA Initialization
- Title(参考訳): HRP:上ロラ初期化のための高速予熱
- Authors: Yuzhu Chen, Yingjie Wang, Shi Fu, Li Shen, Yongcheng Jing, Xinmei Tian, Dacheng Tao,
- Abstract要約: ハイランク予熱 (HRP) はローランク適応 (LoRA) を数ステップで運転する。
HRPは様々なモデルやタスクにおいてLoRAの有効性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 58.3319586613105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies the crucial impact of initialization in Low-Rank Adaptation (LoRA). Through theoretical analysis, we demonstrate that the fine-tuned result of LoRA is highly sensitive to initialization, which is likely to lead suboptimal low-rank results. While this issue can be mitigated by adjusting the initial direction towards the main singular vectors of the target $\Delta W$, which is, however, typically unknown in real-world scenarios. To approximate this initial direction, we propose High-Rank Preheating (HRP), which first trains LoRA with a higher preheating rank for a few steps, then uses the main singular vectors of the derived $BA^\top$ as initialization for the main fine-tuning process. With only a modification in the initial direction, we prove that HRP makes LoRA achieve better fine-tuned results than random initialization in expectation, and the enhancement grows with the preheating rank. We validate our theoretical findings through extensive experiments in various models and tasks, where HRP significantly enhances LoRA's effectiveness and outperforms other initialization strategies and other LoRA variants.
- Abstract(参考訳): 本稿では,ローランド適応(LoRA)における初期化の重大な影響について検討する。
理論的解析により、LoRAの微調整結果が初期化に非常に敏感であることが示され、これは最適下限の低ランクの結果につながる可能性が示唆された。
この問題は、ターゲットの$\Delta W$ の主特異ベクトルへの初期方向を調整することで緩和できるが、現実のシナリオでは典型的には未知である。
この初期方向を近似するために、まず数ステップでLoRAを高い予熱ランクで訓練し、次に派生した$BA^\top$の主特異ベクトルを主微調整過程の初期化として使用する高ランク予熱(HRP)を提案する。
初期方向の変更だけで、HRPは予測値のランダム初期化よりも微調整結果が良いことを証明し、予熱ランクとともに拡張が増加する。
我々は,HRP が LoRA の有効性を著しく向上し,他の初期化戦略および他の LoRA 変種よりも優れるような,様々なモデルやタスクの広範な実験を通じて理論的な知見を検証した。
関連論文リスト
- ElaLoRA: Elastic & Learnable Low-Rank Adaptation for Efficient Model Fine-Tuning [6.657174308208715]
ElaLoRA は適応的な低ランク適応フレームワークであり、勾配依存の重要度スコアに基づいて動的に順応し、ランクを拡大する。
ElaLoRAは、異なるパラメータ予算で既存のPEFTメソッドを一貫して上回っている。
原則的かつ適応的なランク割り当て機構を導入することで、ElaLoRAはスケーラブルで効率的な微調整ソリューションを提供する。
論文 参考訳(メタデータ) (2025-03-31T21:58:25Z) - BeamLoRA: Beam-Constraint Low-Rank Adaptation [51.52097743781401]
Low-Rank Adaptation (LoRA) はパラメータ効率の良い微調整法として広く採用されている。
本研究では,各LoRAモジュールを,各ランクが潜在的サブソリューションに対応するビームとして概念化するビームロラを提案する。
論文 参考訳(メタデータ) (2025-02-19T10:33:22Z) - S-LoRA: Scalable Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、逐次的なタスクに事前訓練されたモデルのパワーを活用するための有望なアプローチとして現れてきた。
本稿では,LRAパラメータの方向と大きさの学習を段階的に分離する,CL(特にクラスインクリメンタルラーニング)のためのスケーラブル低ランク適応(S-LoRA)手法を提案する。
我々の理論的および実証的な分析により、S-LoRAは重なり合う低損失領域に収束する低損失軌道を辿る傾向にあり、CLの安定性と塑性のトレードオフは良好であることが示された。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - Enhancing Parameter Efficiency and Generalization in Large-Scale Models: A Regularized and Masked Low-Rank Adaptation Approach [10.980433187379868]
低ランク適応(LoRA)は、良好な微調整結果を維持しつつ、資源消費を減らすために開発された。
本稿では,LoRA法により近似された行列更新の本質的な次元について検討し,本質的な次元を増大させることによる性能上の利点を明らかにする。
論文 参考訳(メタデータ) (2024-07-16T15:26:31Z) - ALoRA: Allocating Low-Rank Adaptation for Fine-tuning Large Language Models [8.251547772610301]
低ランク適応 (LoRA) の方法論を、低ランク適応 (AloRA) と呼ぶ革新的なアプローチに拡張する。
まず,各ランクの重要度を効果的に推定できる新しい手法であるAB-LoRAを提案する。
第2に、AB-LoRAによって導かれ、我々は徐々にLoRAのランクに多く負の影響を及ぼし、高いランクを必要とする重要なトランスフォーマーモジュールにローラの予算を割り当てる。
論文 参考訳(メタデータ) (2024-03-24T15:09:55Z) - PRoLoRA: Partial Rotation Empowers More Parameter-Efficient LoRA [45.38491644250814]
部分回転型低ランク適応(PRoLoRA)は層内共有機構である。
PRoLoRAはその利点を保ち、ピアパラメータ共有手法の欠点を効果的に回避する。
実験によりPRoLoRAのパラメータ効率が著しく向上した。
論文 参考訳(メタデータ) (2024-02-24T13:39:05Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。