論文の概要: LoRA-FA: Memory-efficient Low-rank Adaptation for Large Language Models
Fine-tuning
- arxiv url: http://arxiv.org/abs/2308.03303v1
- Date: Mon, 7 Aug 2023 05:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 15:13:22.788117
- Title: LoRA-FA: Memory-efficient Low-rank Adaptation for Large Language Models
Fine-tuning
- Title(参考訳): LoRA-FA:大規模言語モデルのためのメモリ効率の低い低ランク適応
- Authors: Longteng Zhang, Lin Zhang, Shaohuai Shi, Xiaowen Chu, Bo Li
- Abstract要約: 本稿では,性能劣化やコストのかかる再計算を伴わずに,メモリ効率のよい微調整法であるLoRA-FAを提案する。
この結果から,LORA-FAは全パラメータの微調整やLORAと比較して,各タスクにまたがる精密調整の精度が常に高いことがわかった。
- 参考スコア(独自算出の注目度): 19.08716369943138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The low-rank adaptation (LoRA) method can largely reduce the amount of
trainable parameters for fine-tuning large language models (LLMs), however, it
still requires expensive activation memory to update low-rank weights. Reducing
the number of LoRA layers or using activation recomputation could harm the
fine-tuning performance or increase the computational overhead. In this work,
we present LoRA-FA, a memory-efficient fine-tuning method that reduces the
activation memory without performance degradation and expensive recomputation.
LoRA-FA chooses to freeze the projection-down weight of $A$ and update the
projection-up weight of $B$ in each LoRA layer. It ensures the change of model
weight reside in a low-rank space during LLMs fine-tuning, while eliminating
the requirement to store full-rank input activations. We conduct extensive
experiments across multiple model types (RoBERTa, T5, LLaMA) and model scales.
Our results show that LoRA-FA can always achieve close fine-tuning accuracy
across different tasks compared to full parameter fine-tuning and LoRA.
Furthermore, LoRA-FA can reduce the overall memory cost by up to 1.4$\times$
compared to LoRA.
- Abstract(参考訳): 低ランク適応 (LoRA) 法は、微調整された大言語モデル (LLM) のトレーニング可能なパラメータの量を大幅に削減できるが、低ランク重み更新には高価なアクティベーションメモリが必要である。
LoRAレイヤの削減やアクティベーション再計算の使用は、微調整性能を損なったり、計算オーバーヘッドを増大させる可能性がある。
そこで本研究では,メモリ効率の良い微調整手法であるlora-faを提案する。
LoRA-FAは、$A$の投射重量を凍結し、各LoRA層で$B$の投射重量を更新する。
モデルウェイトの変化はLLMの微調整中に低ランク空間に留まり、フルランクの入力アクティベーションを格納する必要がなくなる。
複数のモデルタイプ(RoBERTa,T5,LLaMA)とモデルスケールにまたがる広範な実験を行う。
この結果から,LORA-FAは全パラメータの微調整やLORAと比較して,各タスクの細調整精度が常に高いことがわかった。
さらに、LoRA-FAはLoRAと比較してメモリ全体のコストを1.4$\times$まで削減できる。
関連論文リスト
- LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - RoLoRA: Fine-tuning Rotated Outlier-free LLMs for Effective Weight-Activation Quantization [38.23587031169402]
有効重量活性化量子化のための最初のLoRA方式であるRoLoRAを提案する。
我々は,LLaMA2-7B/13B,LLaMA3-8Bモデルにおけるロロラの評価を行い,最大29.5%の精度で4ビットの重量活性化量子化LLaMA2-13Bを実現した。
論文 参考訳(メタデータ) (2024-07-10T20:52:18Z) - LoRA Learns Less and Forgets Less [25.09261710396838]
Low-Rank Adaptation (LoRA) は、大規模言語モデルのパラメータ効率の高い微調整法である。
プログラムと数学の2つの対象領域におけるLoRAの性能と完全な微調整を比較した。
論文 参考訳(メタデータ) (2024-05-15T19:27:45Z) - ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。
提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。
NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-28T04:33:20Z) - PeriodicLoRA: Breaking the Low-Rank Bottleneck in LoRA Optimization [39.30090456724925]
監視された微調整は、下流タスクに大規模言語モデル(LLM)を適用する最も一般的な方法である。
完全な微調整には膨大な計算資源が必要である。
LoRAは最も広く使われている手法の1つであり、最適化過程は本質的に低次元であると仮定する。
論文 参考訳(メタデータ) (2024-02-25T16:43:41Z) - LoRA+: Efficient Low Rank Adaptation of Large Models [13.074320303580361]
低ランク適応(LoRA)は,大幅モデル(埋め込み次元)の最適下微細化につながることを示す。
そこで, このLoRAの準最適性は, 適応行列 A と B の学習率を良好に設定することで, 簡単に補正可能であることを示す。
我々の実験では、LoRA$+$は、LoRAと同じ計算コストで性能(1-2$%の改善)と微調整速度($sim$2X SpeedUpまで)を改善する。
論文 参考訳(メタデータ) (2024-02-19T18:33:49Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。