論文の概要: Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning
- arxiv url: http://arxiv.org/abs/2401.04151v1
- Date: Mon, 8 Jan 2024 14:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 18:48:01.203492
- Title: Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning
- Title(参考訳): LoRAの連鎖:残留学習による言語モデルの効率的な微調整
- Authors: Wenhan Xia, Chengwei Qin, Elad Hazan
- Abstract要約: 本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 31.036465632204663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning is the primary methodology for tailoring pre-trained large
language models to specific tasks. As the model's scale and the diversity of
tasks expand, parameter-efficient fine-tuning methods are of paramount
importance. One of the most widely used family of methods is low-rank
adaptation (LoRA) and its variants. LoRA encodes weight update as the product
of two low-rank matrices. Despite its advantages, LoRA falls short of
full-parameter fine-tuning in terms of generalization error for certain tasks.
We introduce Chain of LoRA (COLA), an iterative optimization framework
inspired by the Frank-Wolfe algorithm, to bridge the gap between LoRA and full
parameter fine-tuning, without incurring additional computational costs or
memory overheads. COLA employs a residual learning procedure where it merges
learned LoRA modules into the pre-trained language model parameters and
re-initilize optimization for new born LoRA modules. We provide theoretical
convergence guarantees as well as empirical results to validate the
effectiveness of our algorithm. Across various models (OPT and llama-2) and
seven benchmarking tasks, we demonstrate that COLA can consistently outperform
LoRA without additional computational or memory costs.
- Abstract(参考訳): 微調整は、訓練済みの大規模言語モデルを特定のタスクに合わせるための主要な方法論である。
モデルの規模とタスクの多様性が拡大するにつれて、パラメーター効率の良い微調整手法が重要となる。
最も広く使われている手法の1つはローランク適応(LoRA)とその変種である。
LoRAは2つの低ランク行列の積として重み更新をエンコードする。
その利点にもかかわらず、LoRAは特定のタスクの一般化誤差の観点からはフルパラメータの微調整に欠ける。
計算コストやメモリオーバーヘッドを伴わずに、LoRAと全パラメータ微調整のギャップを埋めるために、Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるChain of LoRA(COLA)を導入する。
COLAは、学習したLoRAモジュールを事前訓練された言語モデルパラメータにマージし、新たに生成されたLoRAモジュールの最適化を再利用する、残留学習手順を採用している。
提案アルゴリズムの有効性を検証するため,理論的収束保証と実験結果を提供する。
様々なモデル (OPT と llama-2) と7つのベンチマークタスクに対して,COLA は計算コストやメモリコストを伴わずに常に LoRA を上回る性能を発揮することを示した。
関連論文リスト
- ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。
提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。
NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-28T04:33:20Z) - PeriodicLoRA: Breaking the Low-Rank Bottleneck in LoRA Optimization [39.30090456724925]
監視された微調整は、下流タスクに大規模言語モデル(LLM)を適用する最も一般的な方法である。
完全な微調整には膨大な計算資源が必要である。
LoRAは最も広く使われている手法の1つであり、最適化過程は本質的に低次元であると仮定する。
論文 参考訳(メタデータ) (2024-02-25T16:43:41Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [60.57952775326054]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
DoRAは、細調整されたLLaMA、LLaVA、VL-BARTにおいて、様々な下流タスクにおいてLoRAより一貫して優れている。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [55.00074572087611]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z) - MultiLoRA: Democratizing LoRA for Better Multi-Task Learning [20.750808913757396]
LoRAは、特定のタスクにLLMを適用する際に、顕著なリソース効率と同等のパフォーマンスを達成する。
LoRAは少数のトップ特異ベクトルに支配され、微調整はより重要でないユニタリ変換の集合に分解される。
我々は,LoRAで観測されるトップ特異ベクトルの優位性を低減し,マルチタスク適応性を向上するMultiLoRAを提案する。
論文 参考訳(メタデータ) (2023-11-20T02:59:18Z) - LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models [104.23434818428062]
我々は、事前訓練されたモデルに量子化とLoRA微調整を併用するシナリオに焦点を当てる。
本稿では,新しい量子化フレームワークであるLoftQ(LoRA-Fine-Tuning-Aware Quantization)を提案する。
実験の結果,本手法は有効であり,既存の量子化法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T18:34:08Z) - NOLA: Networks as Linear Combination of Low Rank Random Basis [24.418919441014985]
我々は、ロラに存在するランク1の下界を克服するNOLAを導入する。
自然言語およびコンピュータビジョンタスクにおける GPT-2 と ViT を用いた適応結果を提案する。
論文 参考訳(メタデータ) (2023-10-04T03:30:24Z) - One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning [34.109808214968176]
Generalized LoRA (GLoRA) は、汎用パラメータ効率の微調整タスクのための先進的なアプローチである。
一般化されたプロンプトモジュールを使用して、事前訓練されたモデルの重量を最適化し、中間活性化を調整する。
GLoRAは、強力な転送学習、少数ショット学習、ドメイン一般化能力を示す。
論文 参考訳(メタデータ) (2023-06-13T17:59:32Z) - LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [59.74018108967818]
低ランク適応(LoRA)は、安価に微調整された大型事前訓練モデル(LPM)に現れている。
LoRAPruneは、メモリ効率のよい推論のための正確でコンパクトなモデルを提供する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。