論文の概要: LoRA-One: One-Step Full Gradient Could Suffice for Fine-Tuning Large Language Models, Provably and Efficiently
- arxiv url: http://arxiv.org/abs/2502.01235v2
- Date: Wed, 28 May 2025 09:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 15:04:27.173563
- Title: LoRA-One: One-Step Full Gradient Could Suffice for Fine-Tuning Large Language Models, Provably and Efficiently
- Title(参考訳): LoRA-One: 1ステップの完全なグラディエントは大きな言語モデルの微調整に十分か、確率的かつ効果的か
- Authors: Yuanhe Zhang, Fanghui Liu, Yudong Chen,
- Abstract要約: 本稿では,Low-Rank Adaptation (LoRA) を用いた大規模言語モデルを用いて,理論が実用的なアルゴリズムをガイドし,拡張する方法について検討する。
勾配降下の下では、LoRAアダプタは1ステップの完全な微調整勾配の特異部分空間と整列する。
本稿では, 線形収束を構築し, プリコンディショナーを取り入れた理論駆動型アルゴリズムLoRA-Oneを提案する。
- 参考スコア(独自算出の注目度): 10.843508549704959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores how theory can guide and enhance practical algorithms, using Low-Rank Adaptation (LoRA, Hu et al. 2022) in large language models as a case study. We rigorously prove that, under gradient descent, LoRA adapters align with specific singular subspaces of the one-step full fine-tuning gradient. This result suggests that, by properly initializing the adapters using the one-step full gradient, subspace alignment can be achieved immediately and applicable to both linear and nonlinear models. Building on our theory, we propose a theory-driven algorithm, LoRA-One, where the linear convergence (as well as generalization) is built and incorporating preconditioners theoretically helps mitigate the effects of ill-conditioning. Besides, our theory reveals connections between LoRA-One and other gradient-alignment-based methods, helping to clarify misconceptions in the design of such algorithms. LoRA-One achieves significant empirical improvements over LoRA and its variants across benchmarks in natural language understanding, mathematical reasoning, and code generation. Code is available at: https://github.com/YuanheZ/LoRA-One.
- Abstract(参考訳): 本稿では,Low-Rank Adaptation (LoRA, Hu et al 2022) を用いて,大規模言語モデルを用いて,理論が実用的なアルゴリズムをガイドし,拡張する方法について考察する。
勾配降下の下では、LoRAアダプタは1ステップの完全な微調整勾配の特異部分空間と整列する。
この結果から, 1ステップの完全勾配を用いてアダプタを適切に初期化することにより, 部分空間アライメントを即座に達成し, 線形モデルと非線形モデルの両方に適用可能であることが示唆された。
本理論に基づいて, 線形収束(および一般化)を構築, プリコンディショナーを組み込むことにより, 悪条件の影響を緩和する理論駆動型アルゴリズムLoRA-Oneを提案する。
さらに, この理論は, LoRA-One と他の勾配アライメントに基づく手法の関連性を明らかにし, アルゴリズムの設計における誤解を明らかにするのに役立つ。
LoRA-Oneは、自然言語理解、数学的推論、コード生成のベンチマークにおいて、LoRAとその変種に対する顕著な経験的改善を実現している。
コードは、https://github.com/YuanheZ/LoRA-One.comで入手できる。
関連論文リスト
- Understanding the Learning Dynamics of LoRA: A Gradient Flow Perspective on Low-Rank Adaptation in Matrix Factorization [7.940066909711888]
我々は、勾配流(GF)下での行列分解のためのローランド適応(LoRA)の学習ダイナミクスを解析する。
解析の結果,最終誤差は,事前学習されたモデルの特異空間と対象行列との間の不整合によって影響を受けることがわかった。
論文 参考訳(メタデータ) (2025-03-10T06:57:10Z) - Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment [20.382810396966473]
Low-Rank Adaptation (LoRA)は、Large Language Models (LLM) のためのパラメータ効率の良い微調整を可能にする
現在の手法は静的特異値分解サブセットを初期化することでLoRAを最適化し、事前学習された知識を最適に活用する。
我々はLunderlineoRunderlineA Mixture-of-Experunderlinet (GOAT)を提案する。
GOATはSVD構造化MoEを用いて関連する事前情報を統合し、理論スケーリング係数を導出して最適化を完全微調整MoEと整合させる
論文 参考訳(メタデータ) (2025-02-24T06:48:13Z) - Logarithmic Regret for Online KL-Regularized Reinforcement Learning [51.113248212150964]
KL正規化は、大規模言語モデルにおけるRL微調整の効率向上に重要な役割を果たしている。
経験的優位性にもかかわらず、KL-正則化RLと標準RLの理論的相違はほとんど未探索のままである。
楽観的なKL正規化オンライン文脈帯域幅アルゴリズムを提案し,その後悔の新たな分析法を提案する。
論文 参考訳(メタデータ) (2025-02-11T11:11:05Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - Initialization using Update Approximation is a Silver Bullet for Extremely Efficient Low-Rank Fine-Tuning [13.823795660384262]
低ランクアダプタは,大規模言語モデル(LLM)を効率よく微調整するための標準的アプローチとなっている
低ランク部分空間内での完全な微調整を近似するLoRA Silver BulletあるいはLoRA-SBを提案する。
その結果,低ランク部分空間における完全微調整をシミュレートすることが可能であり,性能を損なうことなく大幅な効率向上が達成できることが判明した。
論文 参考訳(メタデータ) (2024-11-29T09:10:30Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - Computational Limits of Low-Rank Adaptation (LoRA) for Transformer-Based Models [10.827800772359844]
変形器モデルにおけるローランド適応(LoRA)更新の計算限界について検討する。
我々のキーとなる観察は、LoRA適応の勾配計算における低ランク分解の存在がアルゴリズムの高速化につながることである。
我々は,LoRA勾配の階層的低ランク構造を利用して,LoRA適応のためのニアリニア近似アルゴリズムの存在を証明した。
論文 参考訳(メタデータ) (2024-06-05T10:44:08Z) - Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models [45.72323731094864]
Low-Rank Adaptation (LoRA) は、パラメータ効率のよい微細チューニング(PEFT)法として人気がある。
本研究では,各勾配ステップに$r倍r$プレコンディショナーを導入することにより,LoRAトレーニングの強化について検討する。
論文 参考訳(メタデータ) (2024-02-04T05:05:43Z) - SHOT: Suppressing the Hessian along the Optimization Trajectory for
Gradient-Based Meta-Learning [28.26143547479141]
SHOT(Suppressing the Hessian along the Optimization Trajectory)と呼ばれるアルゴリズムを導入する。
SHOTはベースラインモデルの計算複雑性をあまり増やさない。
本仮説を実証的に検証し,SHOTが対応するベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-04T11:43:08Z) - Lassoed Tree Boosting [53.56229983630983]
有界断面変動のカドラー関数の大きな非パラメトリック空間において,早期に停止するn-1/4$ L2の収束速度を持つ勾配向上木アルゴリズムを証明した。
我々の収束証明は、ネストしたドンスカー類の経験的損失最小化子による早期停止に関する新しい一般定理に基づいている。
論文 参考訳(メタデータ) (2022-05-22T00:34:41Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Towards Understanding Label Smoothing [36.54164997035046]
ラベルスムーズな正規化(LSR)は、トレーニングアルゴリズムによるディープニューラルネットワークにおいて大きな成功を収めている。
適切なLSRが分散を減少させることで収束を加速することを示す。
本稿では,TSLA(Two-Stage LAbel smoothing algorithm)を提案する。
論文 参考訳(メタデータ) (2020-06-20T20:36:17Z) - A Generic First-Order Algorithmic Framework for Bi-Level Programming
Beyond Lower-Level Singleton [49.23948907229656]
Bi-level Descent Aggregationは、汎用的な双方向最適化のためのフレキシブルでモジュール化されたアルゴリズムフレームワークである。
LLS条件なしでBDAの収束を証明する新しい手法を導出する。
我々の研究は、BDAが特定の一階計算モジュールの検証と互換性があることも示している。
論文 参考訳(メタデータ) (2020-06-07T05:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。