論文の概要: Delta-LoRA: Fine-Tuning High-Rank Parameters with the Delta of Low-Rank
Matrices
- arxiv url: http://arxiv.org/abs/2309.02411v1
- Date: Tue, 5 Sep 2023 17:40:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 13:43:15.176557
- Title: Delta-LoRA: Fine-Tuning High-Rank Parameters with the Delta of Low-Rank
Matrices
- Title(参考訳): Delta-LoRA:低ランク行列のデルタを用いた微調整高ランクパラメータ
- Authors: Bojia Zi, Xianbiao Qi, Lingzhi Wang, Jianan Wang, Kam-Fai Wong, Lei
Zhang
- Abstract要約: Delta-LoRAは、ファインチューン大言語モデル(LLM)に対する新しいパラメータ効率のアプローチである
LoRAやAdaLoRAのような他の低ランク適応手法とは対照的に、Delta-LoRAは低ランク行列を$bA$と$bB$で更新するだけでなく、事前訓練された重みへの学習を広める。
- 参考スコア(独自算出の注目度): 27.693028578653394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present Delta-LoRA, which is a novel parameter-efficient
approach to fine-tune large language models (LLMs). In contrast to LoRA and
other low-rank adaptation methods such as AdaLoRA, Delta-LoRA not only updates
the low-rank matrices $\bA$ and $\bB$, but also propagate the learning to the
pre-trained weights $\bW$ via updates utilizing the delta of the product of two
low-rank matrices ($\bA^{(t+1)}\bB^{(t+1)} - \bA^{(t)}\bB^{(t)}$). Such a
strategy effectively addresses the limitation that the incremental update of
low-rank matrices is inadequate for learning representations capable for
downstream tasks. Moreover, as the update of $\bW$ does not need to compute the
gradients of $\bW$ and store their momentums, Delta-LoRA shares comparable
memory requirements and computational costs with LoRA. Extensive experiments
show that Delta-LoRA significantly outperforms existing low-rank adaptation
methods. We further support these results with comprehensive analyses that
underscore the effectiveness of Delta-LoRA.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)に対するパラメータ効率の新たなアプローチであるDelta-LoRAを提案する。
AdaLoRAやDelta-LoRAのような低ランク適応手法とは対照的に、低ランク行列を$\bA$と$\bB$に更新するだけでなく、2つの低ランク行列の積のデルタ値($\bA^{(t+1)}\bB^{(t+1)} - \bA^{(t)}\bB^{(t)}$を更新することで、事前訓練された重みに学習を広める。
このような戦略は、低ランク行列の漸進的な更新が下流タスクが可能な表現の学習に不十分であるという限界に効果的に対処する。
さらに、$\bW$の更新では、$\bW$の勾配を計算してモメンタムを保存する必要がないため、Delta-LoRAはLoRAと同等のメモリ要件と計算コストを共有する。
デルタロラは既存の低ランク適応法よりも大幅に優れていた。
Delta-LoRAの有効性を裏付ける包括的分析により,これらの結果をさらに支援する。
関連論文リスト
- LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - CoRA: Optimizing Low-Rank Adaptation with Common Subspace of Large Language Models [7.108651381160281]
Low-Rank Adaptation (LoRA) 戦略は、微調整された大型モデルにおける効率と性能のバランスをとる。
我々は、共有知識を活用してLoRAトレーニングを最適化するtextbfCoRAを提案する。
実験の結果,最初のアプローチは,パラメータの半減よりも効率が良く,元のLoRAファインチューニングと同じ効果が得られることがわかった。
論文 参考訳(メタデータ) (2024-08-31T12:48:27Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - SBoRA: Low-Rank Adaptation with Regional Weight Updates [19.15481369459963]
本稿では,SBORA(Standard Basis LoRA)を提案する。
SBoRAはトレーニング可能なパラメータの数を半分に減らし、LoRAと同様のトレーニング可能なパラメータの数でランクを2倍にする。
本研究は,LoraよりもSBoRA-FAの方が,常識推論や算術推論など,様々な微調整タスクにおいて優れていることを示す。
論文 参考訳(メタデータ) (2024-07-07T15:37:13Z) - A Single Linear Layer Yields Task-Adapted Low-Rank Matrices [4.695004706877747]
Low-Rank Adaptation (LoRA) は、初期重量行列$W_0$をデルタ行列$Delta W$で更新するPEFT (Efficient Fine-Tuning) 法として広く用いられている。
CondLoRAのトレーニング可能なパラメータがLoRAのパラメータよりも少ないにもかかわらず、CondLoRAはLoRAと同等のパフォーマンスを維持していることを示す。
論文 参考訳(メタデータ) (2024-03-22T04:38:42Z) - ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。
提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。
NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-28T04:33:20Z) - Asymmetry in Low-Rank Adapters of Foundation Models [47.310550805920585]
本稿では、低ランクアダプタ行列の重要性において、予期せぬ非対称性を特徴付け、活用する。
我々は、細調整の$B$が、細調整の$A$よりも本質的に効果的であることを示し、ランダムな未トレーニングの$A$は、細調整の$A$よりもほぼ同等に機能することを示します。
論文 参考訳(メタデータ) (2024-02-26T18:59:12Z) - LoRA+: Efficient Low Rank Adaptation of Large Models [13.074320303580361]
低ランク適応(LoRA)は,大幅モデル(埋め込み次元)の最適下微細化につながることを示す。
そこで, このLoRAの準最適性は, 適応行列 A と B の学習率を良好に設定することで, 簡単に補正可能であることを示す。
我々の実験では、LoRA$+$は、LoRAと同じ計算コストで性能(1-2$%の改善)と微調整速度($sim$2X SpeedUpまで)を改善する。
論文 参考訳(メタデータ) (2024-02-19T18:33:49Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models [45.72323731094864]
Low-Rank Adaptation (LoRA) は、パラメータ効率のよい微細チューニング(PEFT)法として人気がある。
本研究では,各勾配ステップに$r倍r$プレコンディショナーを導入することにより,LoRAトレーニングの強化について検討する。
論文 参考訳(メタデータ) (2024-02-04T05:05:43Z) - The Expressive Power of Low-Rank Adaptation [11.371811534310078]
パラメータ効率のよい微調整法である低ランク適応は、微調整事前学習モデルの代表的な手法として登場した。
本稿では,LoRAの表現力を理論的に解析することで,ギャップを埋める第一歩を踏み出す。
トランスフォーマーネットワークでは、任意のモデルが、ランク=$(fractextembedding size2)$ LoRAで同じサイズのターゲットモデルに適応可能であることを示す。
論文 参考訳(メタデータ) (2023-10-26T16:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。