論文の概要: One-step full gradient suffices for low-rank fine-tuning, provably and efficiently
- arxiv url: http://arxiv.org/abs/2502.01235v1
- Date: Mon, 03 Feb 2025 10:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:54.635286
- Title: One-step full gradient suffices for low-rank fine-tuning, provably and efficiently
- Title(参考訳): 低ランク微調整のための1ステップフル勾配サフィスの有効性と有効性
- Authors: Yuanhe Zhang, Fanghui Liu, Yudong Chen,
- Abstract要約: 本稿では,Low-Rank Adaption (LoRA) の性能向上を理論的に検討する。
提案手法は,emphLoRA-Oneアルゴリズム(emphワンステップ勾配とプレコンディショニングを用いた)に導かれる。
- 参考スコア(独自算出の注目度): 10.843508549704959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies how to improve the performance of Low-Rank Adaption (LoRA) as guided by our theoretical analysis. Our first set of theoretical results show that for random initialization and linear models, \textit{i)} LoRA will align to the certain singular subspace of one-step gradient of full fine-tuning; \textit{ii)} preconditioners improve convergence in the high-rank case. These insights motivate us to focus on preconditioned LoRA using a specific spectral initialization strategy for aligning with certain subspaces. For both linear and nonlinear models, we prove that alignment and generalization guarantees can be directly achieved at initialization, and the subsequent linear convergence can be also built. Our analysis leads to the \emph{LoRA-One} algorithm (using \emph{One}-step gradient and preconditioning), a theoretically grounded algorithm that achieves significant empirical improvement over vanilla LoRA and its variants on several benchmarks. Our theoretical analysis, based on decoupling the learning dynamics and characterizing how spectral initialization contributes to feature learning, may be of independent interest for understanding matrix sensing and deep learning theory. The source code can be found in the https://github.com/YuanheZ/LoRA-One.
- Abstract(参考訳): 本稿では,Low-Rank Adaption (LoRA) の性能向上を理論的に検討する。
我々の理論結果の最初の集合は、ランダム初期化と線形モデルに対して、LoRAはフル微調整の1ステップ勾配の特定の特異部分空間と整合することを示している; \textit{ii} プレコンディショナーは、高階の場合の収束を改善する。
これらの知見は、特定の部分空間と整合する特定のスペクトル初期化戦略を用いて、プレコンディション付き LoRA に集中する動機となっている。
線形モデルと非線形モデルの両方に対して、アライメントと一般化の保証が初期化時に直接達成できることを証明し、その後の線形収束も構築できる。
我々の分析は,バニラロラとその変種に対する有意な経験的改善を実現する理論的なアルゴリズムである \emph{LoRA-One} アルゴリズム(ステップ勾配とプレコンディショニングを使用)に導かれる。
我々の理論的分析は、学習力学を分離し、スペクトル初期化が特徴学習にどのように貢献するかを特徴付けるものであり、行列センシングと深層学習理論の理解において、独立した関心を持つ可能性がある。
ソースコードはhttps://github.com/YuanheZ/LoRA-Oneにある。
関連論文リスト
- Understanding the Learning Dynamics of LoRA: A Gradient Flow Perspective on Low-Rank Adaptation in Matrix Factorization [7.940066909711888]
我々は、勾配流(GF)下での行列分解のためのローランド適応(LoRA)の学習ダイナミクスを解析する。
解析の結果,最終誤差は,事前学習されたモデルの特異空間と対象行列との間の不整合によって影響を受けることがわかった。
論文 参考訳(メタデータ) (2025-03-10T06:57:10Z) - Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment [20.382810396966473]
Low-Rank Adaptation (LoRA)は、Large Language Models (LLM) のためのパラメータ効率の良い微調整を可能にする
現在の手法は静的特異値分解サブセットを初期化することでLoRAを最適化し、事前学習された知識を最適に活用する。
我々はLunderlineoRunderlineA Mixture-of-Experunderlinet (GOAT)を提案する。
GOATはSVD構造化MoEを用いて関連する事前情報を統合し、理論スケーリング係数を導出して最適化を完全微調整MoEと整合させる
論文 参考訳(メタデータ) (2025-02-24T06:48:13Z) - Logarithmic Regret for Online KL-Regularized Reinforcement Learning [51.113248212150964]
KL正規化は、大規模言語モデルにおけるRL微調整の効率向上に重要な役割を果たしている。
経験的優位性にもかかわらず、KL-正則化RLと標準RLの理論的相違はほとんど未探索のままである。
楽観的なKL正規化オンライン文脈帯域幅アルゴリズムを提案し,その後悔の新たな分析法を提案する。
論文 参考訳(メタデータ) (2025-02-11T11:11:05Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - Initialization using Update Approximation is a Silver Bullet for Extremely Efficient Low-Rank Fine-Tuning [13.823795660384262]
低ランクアダプタは,大規模言語モデル(LLM)を効率よく微調整するための標準的アプローチとなっている
低ランク部分空間内での完全な微調整を近似するLoRA Silver BulletあるいはLoRA-SBを提案する。
その結果,低ランク部分空間における完全微調整をシミュレートすることが可能であり,性能を損なうことなく大幅な効率向上が達成できることが判明した。
論文 参考訳(メタデータ) (2024-11-29T09:10:30Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - Computational Limits of Low-Rank Adaptation (LoRA) for Transformer-Based Models [10.827800772359844]
変形器モデルにおけるローランド適応(LoRA)更新の計算限界について検討する。
我々のキーとなる観察は、LoRA適応の勾配計算における低ランク分解の存在がアルゴリズムの高速化につながることである。
我々は,LoRA勾配の階層的低ランク構造を利用して,LoRA適応のためのニアリニア近似アルゴリズムの存在を証明した。
論文 参考訳(メタデータ) (2024-06-05T10:44:08Z) - Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models [45.72323731094864]
Low-Rank Adaptation (LoRA) は、パラメータ効率のよい微細チューニング(PEFT)法として人気がある。
本研究では,各勾配ステップに$r倍r$プレコンディショナーを導入することにより,LoRAトレーニングの強化について検討する。
論文 参考訳(メタデータ) (2024-02-04T05:05:43Z) - SHOT: Suppressing the Hessian along the Optimization Trajectory for
Gradient-Based Meta-Learning [28.26143547479141]
SHOT(Suppressing the Hessian along the Optimization Trajectory)と呼ばれるアルゴリズムを導入する。
SHOTはベースラインモデルの計算複雑性をあまり増やさない。
本仮説を実証的に検証し,SHOTが対応するベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-04T11:43:08Z) - Lassoed Tree Boosting [53.56229983630983]
有界断面変動のカドラー関数の大きな非パラメトリック空間において,早期に停止するn-1/4$ L2の収束速度を持つ勾配向上木アルゴリズムを証明した。
我々の収束証明は、ネストしたドンスカー類の経験的損失最小化子による早期停止に関する新しい一般定理に基づいている。
論文 参考訳(メタデータ) (2022-05-22T00:34:41Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Towards Understanding Label Smoothing [36.54164997035046]
ラベルスムーズな正規化(LSR)は、トレーニングアルゴリズムによるディープニューラルネットワークにおいて大きな成功を収めている。
適切なLSRが分散を減少させることで収束を加速することを示す。
本稿では,TSLA(Two-Stage LAbel smoothing algorithm)を提案する。
論文 参考訳(メタデータ) (2020-06-20T20:36:17Z) - A Generic First-Order Algorithmic Framework for Bi-Level Programming
Beyond Lower-Level Singleton [49.23948907229656]
Bi-level Descent Aggregationは、汎用的な双方向最適化のためのフレキシブルでモジュール化されたアルゴリズムフレームワークである。
LLS条件なしでBDAの収束を証明する新しい手法を導出する。
我々の研究は、BDAが特定の一階計算モジュールの検証と互換性があることも示している。
論文 参考訳(メタデータ) (2020-06-07T05:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。