論文の概要: One-step full gradient suffices for low-rank fine-tuning, provably and efficiently
- arxiv url: http://arxiv.org/abs/2502.01235v1
- Date: Mon, 03 Feb 2025 10:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:06:02.289349
- Title: One-step full gradient suffices for low-rank fine-tuning, provably and efficiently
- Title(参考訳): 低ランク微調整のための1ステップフル勾配サフィスの有効性と有効性
- Authors: Yuanhe Zhang, Fanghui Liu, Yudong Chen,
- Abstract要約: 本稿では,Low-Rank Adaption (LoRA) の性能向上を理論的に検討する。
提案手法は,emphLoRA-Oneアルゴリズム(emphワンステップ勾配とプレコンディショニングを用いた)に導かれる。
- 参考スコア(独自算出の注目度): 10.843508549704959
- License:
- Abstract: This paper studies how to improve the performance of Low-Rank Adaption (LoRA) as guided by our theoretical analysis. Our first set of theoretical results show that for random initialization and linear models, \textit{i)} LoRA will align to the certain singular subspace of one-step gradient of full fine-tuning; \textit{ii)} preconditioners improve convergence in the high-rank case. These insights motivate us to focus on preconditioned LoRA using a specific spectral initialization strategy for aligning with certain subspaces. For both linear and nonlinear models, we prove that alignment and generalization guarantees can be directly achieved at initialization, and the subsequent linear convergence can be also built. Our analysis leads to the \emph{LoRA-One} algorithm (using \emph{One}-step gradient and preconditioning), a theoretically grounded algorithm that achieves significant empirical improvement over vanilla LoRA and its variants on several benchmarks. Our theoretical analysis, based on decoupling the learning dynamics and characterizing how spectral initialization contributes to feature learning, may be of independent interest for understanding matrix sensing and deep learning theory. The source code can be found in the https://github.com/YuanheZ/LoRA-One.
- Abstract(参考訳): 本稿では,Low-Rank Adaption (LoRA) の性能向上を理論的に検討する。
我々の理論結果の最初の集合は、ランダム初期化と線形モデルに対して、LoRAはフル微調整の1ステップ勾配の特定の特異部分空間と整合することを示している; \textit{ii} プレコンディショナーは、高階の場合の収束を改善する。
これらの知見は、特定の部分空間と整合する特定のスペクトル初期化戦略を用いて、プレコンディション付き LoRA に集中する動機となっている。
線形モデルと非線形モデルの両方に対して、アライメントと一般化の保証が初期化時に直接達成できることを証明し、その後の線形収束も構築できる。
我々の分析は,バニラロラとその変種に対する有意な経験的改善を実現する理論的なアルゴリズムである \emph{LoRA-One} アルゴリズム(ステップ勾配とプレコンディショニングを使用)に導かれる。
我々の理論的分析は、学習力学を分離し、スペクトル初期化が特徴学習にどのように貢献するかを特徴付けるものであり、行列センシングと深層学習理論の理解において、独立した関心を持つ可能性がある。
ソースコードはhttps://github.com/YuanheZ/LoRA-Oneにある。
関連論文リスト
- Logarithmic Regret for Online KL-Regularized Reinforcement Learning [51.113248212150964]
KL正規化は、大規模言語モデルにおけるRL微調整の効率向上に重要な役割を果たしている。
経験的優位性にもかかわらず、KL-正則化RLと標準RLの理論的相違はほとんど未探索のままである。
楽観的なKL正規化オンライン文脈帯域幅アルゴリズムを提案し,その後悔の新たな分析法を提案する。
論文 参考訳(メタデータ) (2025-02-11T11:11:05Z) - S-LoRA: Scalable Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、逐次的なタスクに事前訓練されたモデルのパワーを活用するための有望なアプローチとして現れてきた。
本稿では,LRAパラメータの方向と大きさの学習を段階的に分離する,CL(特にクラスインクリメンタルラーニング)のためのスケーラブル低ランク適応(S-LoRA)手法を提案する。
我々の理論的および実証的な分析により、S-LoRAは重なり合う低損失領域に収束する低損失軌道を辿る傾向にあり、CLの安定性と塑性のトレードオフは良好であることが示された。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - Initialization using Update Approximation is a Silver Bullet for Extremely Efficient Low-Rank Fine-Tuning [13.823795660384262]
低ランク部分空間内での完全な微調整を近似するLoRA Silver BulletあるいはLoRA-SBを提案する。
これらの結果から,低ランク部分空間において,性能を犠牲にすることなく完全な微調整をシミュレートできることが示唆された。
論文 参考訳(メタデータ) (2024-11-29T09:10:30Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - Computational Limits of Low-Rank Adaptation (LoRA) for Transformer-Based Models [10.827800772359844]
変形器モデルにおけるローランド適応(LoRA)更新の計算限界について検討する。
我々のキーとなる観察は、LoRA適応の勾配計算における低ランク分解の存在がアルゴリズムの高速化につながることである。
我々は,LoRA勾配の階層的低ランク構造を利用して,LoRA適応のためのニアリニア近似アルゴリズムの存在を証明した。
論文 参考訳(メタデータ) (2024-06-05T10:44:08Z) - SHOT: Suppressing the Hessian along the Optimization Trajectory for
Gradient-Based Meta-Learning [28.26143547479141]
SHOT(Suppressing the Hessian along the Optimization Trajectory)と呼ばれるアルゴリズムを導入する。
SHOTはベースラインモデルの計算複雑性をあまり増やさない。
本仮説を実証的に検証し,SHOTが対応するベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-04T11:43:08Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Towards Understanding Label Smoothing [36.54164997035046]
ラベルスムーズな正規化(LSR)は、トレーニングアルゴリズムによるディープニューラルネットワークにおいて大きな成功を収めている。
適切なLSRが分散を減少させることで収束を加速することを示す。
本稿では,TSLA(Two-Stage LAbel smoothing algorithm)を提案する。
論文 参考訳(メタデータ) (2020-06-20T20:36:17Z) - A Generic First-Order Algorithmic Framework for Bi-Level Programming
Beyond Lower-Level Singleton [49.23948907229656]
Bi-level Descent Aggregationは、汎用的な双方向最適化のためのフレキシブルでモジュール化されたアルゴリズムフレームワークである。
LLS条件なしでBDAの収束を証明する新しい手法を導出する。
我々の研究は、BDAが特定の一階計算モジュールの検証と互換性があることも示している。
論文 参考訳(メタデータ) (2020-06-07T05:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。