論文の概要: Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models
- arxiv url: http://arxiv.org/abs/2402.02347v2
- Date: Wed, 7 Feb 2024 06:17:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 11:57:30.736201
- Title: Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models
- Title(参考訳): ファインチューニング基礎モデルのためのリーマン事前条件付きLORA
- Authors: Fangzhao Zhang, Mert Pilanci
- Abstract要約: 各ステップで$rtimes r$ preconditionerを導入します。
プレコンディショナーでは,SGDとAdamWの収束と信頼性を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 54.01594785269913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we study the enhancement of Low Rank Adaptation (LoRA)
fine-tuning procedure by introducing a Riemannian preconditioner in its
optimization step. Specifically, we introduce an $r\times r$ preconditioner in
each gradient step where $r$ is the LoRA rank. This preconditioner requires a
small change to existing optimizer code and creates virtually minuscule storage
and runtime overhead. Our experimental results with both large language models
and text-to-image diffusion models show that with our preconditioner, the
convergence and reliability of SGD and AdamW can be significantly enhanced.
Moreover, the training process becomes much more robust to hyperparameter
choices such as learning rate. Theoretically, we show that fine-tuning a
two-layer ReLU network in the convex paramaterization with our preconditioner
has convergence rate independent of condition number of the data matrix. This
new Riemannian preconditioner, previously explored in classic low-rank matrix
recovery, is introduced to deep learning tasks for the first time in our work.
We release our code at
https://github.com/pilancilab/Riemannian_Preconditioned_LoRA.
- Abstract(参考訳): 本研究では,Riemann プレコンディショナーを最適化ステップに導入することにより,ローランク適応(LoRA)微調整手順の強化について検討する。
具体的には、各勾配ステップに$r\times r$ preconditionerを導入し、$r$はLoRAランクである。
このプリコンディショナーは既存のオプティマイザコードに小さな変更を要し、事実上最小のストレージと実行時のオーバーヘッドを生成する。
大規模言語モデルとテキスト・画像拡散モデルの両方による実験結果から,SGDとAdamWの収束性と信頼性が著しく向上できることが示唆された。
さらに、トレーニングプロセスは、学習率などのハイパーパラメータ選択に対して、より堅牢になる。
理論的には、凸並列化における2層ReLUネットワークの微調整は、データ行列の条件数に依存しない収束率を持つことを示す。
この新しいリーマン型プリコンディショナーは、従来の低ランクマトリックスリカバリで研究され、我々の仕事で初めてディープラーニングタスクに導入されました。
コードをhttps://github.com/pilancilab/Riemannian_Preconditioned_LoRAでリリースします。
関連論文リスト
- IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAを提案し、整数型(INT)低ランクパラメータを用いて効率限界を押し上げ、量子化拡散モデルに適応させる。
IntLoRAには3つの大きな利点がある: (i) 微調整の場合、事前トレーニングされた重みは量子化され、メモリ使用量が減少する (ii) ストレージの場合、事前トレーニングされた重みと低ランクの重みの両方が、ディスクスペースを少なく消費するINT内にある; (iii) 推論の場合、IntLoRA重みは、効率的な整数乗算やビットシフトによって自然に量子化された事前トレーニングされた重みにマージできる。
論文 参考訳(メタデータ) (2024-10-29T05:50:17Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - CoRA: Optimizing Low-Rank Adaptation with Common Subspace of Large Language Models [7.108651381160281]
Low-Rank Adaptation (LoRA) 戦略は、微調整された大型モデルにおける効率と性能のバランスをとる。
我々は、共有知識を活用してLoRAトレーニングを最適化するtextbfCoRAを提案する。
実験の結果,最初のアプローチは,パラメータの半減よりも効率が良く,元のLoRAファインチューニングと同じ効果が得られることがわかった。
論文 参考訳(メタデータ) (2024-08-31T12:48:27Z) - SBoRA: Low-Rank Adaptation with Regional Weight Updates [19.15481369459963]
本稿では,SBORA(Standard Basis LoRA)を提案する。
SBoRAはトレーニング可能なパラメータの数を半分に減らし、LoRAと同様のトレーニング可能なパラメータの数でランクを2倍にする。
本研究は,LoraよりもSBoRA-FAの方が,常識推論や算術推論など,様々な微調整タスクにおいて優れていることを示す。
論文 参考訳(メタデータ) (2024-07-07T15:37:13Z) - DoRA: Enhancing Parameter-Efficient Fine-Tuning with Dynamic Rank Distribution [28.589498108609202]
Low-Rank Adaptation (LoRA) は、ウェイト行列の差分パラメータ予算要件を無視したバイパスフレームワークに依存している。
DoRAは、高ランクのLoRA層を構造化シングルランクコンポーネントに分解し、パラメータ予算の動的プルーニングを可能にする。
実験結果から,LORAやフルモデルファインチューニングと比較して,DoRAの競争性能が向上することが示された。
論文 参考訳(メタデータ) (2024-05-27T17:02:27Z) - Flora: Low-Rank Adapters Are Secretly Gradient Compressors [30.224822087562163]
低ランク適応(LoRA)は、少ないパラメータをトレーニングすることで最適化状態を低減するために提案される。
LoRAは全体の重量更新行列を低ランクに制限し、モデル性能を制限している。
本稿では,プロジェクション行列を再サンプリングすることで高階更新を実現する Flora を提案する。
論文 参考訳(メタデータ) (2024-02-05T18:50:39Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - The Expressive Power of Low-Rank Adaptation [11.371811534310078]
パラメータ効率のよい微調整法である低ランク適応は、微調整事前学習モデルの代表的な手法として登場した。
本稿では,LoRAの表現力を理論的に解析することで,ギャップを埋める第一歩を踏み出す。
トランスフォーマーネットワークでは、任意のモデルが、ランク=$(fractextembedding size2)$ LoRAで同じサイズのターゲットモデルに適応可能であることを示す。
論文 参考訳(メタデータ) (2023-10-26T16:08:33Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。