論文の概要: QDyLoRA: Quantized Dynamic Low-Rank Adaptation for Efficient Large
Language Model Tuning
- arxiv url: http://arxiv.org/abs/2402.10462v1
- Date: Fri, 16 Feb 2024 05:42:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 17:32:54.135378
- Title: QDyLoRA: Quantized Dynamic Low-Rank Adaptation for Efficient Large
Language Model Tuning
- Title(参考訳): QDyLoRA:効率的な大規模言語モデルチューニングのための量子化動的低ランク適応
- Authors: Hossein Rajabzadeh, Mojtaba Valipour, Tianshu Zhu, Marzieh Tahaei,
Hyock Ju Kwon, Ali Ghodsi, Boxing Chen and Mehdi Rezagholizadeh
- Abstract要約: 大きな言語モデルを微調整するには、巨大なGPUメモリが必要である。
QDyLoRAは、事前に定義されたLoRAランクのセットでLLMを効率的に微調整することができる。
QDyLoRAはQLoRAと競合し、最適なランクを採用すると性能が向上する。
- 参考スコア(独自算出の注目度): 30.069353400127046
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Finetuning large language models requires huge GPU memory, restricting the
choice to acquire Larger models. While the quantized version of the Low-Rank
Adaptation technique, named QLoRA, significantly alleviates this issue, finding
the efficient LoRA rank is still challenging. Moreover, QLoRA is trained on a
pre-defined rank and, therefore, cannot be reconfigured for its lower ranks
without requiring further fine-tuning steps. This paper proposes QDyLoRA
-Quantized Dynamic Low-Rank Adaptation-, as an efficient quantization approach
for dynamic low-rank adaptation. Motivated by Dynamic LoRA, QDyLoRA is able to
efficiently finetune LLMs on a set of pre-defined LoRA ranks. QDyLoRA enables
fine-tuning Falcon-40b for ranks 1 to 64 on a single 32 GB V100-GPU through one
round of fine-tuning. Experimental results show that QDyLoRA is competitive to
QLoRA and outperforms when employing its optimal rank.
- Abstract(参考訳): 大きな言語モデルを微調整するには、巨大なGPUメモリが必要である。
QLoRAと呼ばれる低ランク適応手法の量子化バージョンはこの問題を著しく軽減するが、効率的なLoRAランクを見つけることは依然として困難である。
さらに、QLoRAは事前に定義されたランクでトレーニングされているため、さらなる微調整ステップを必要とせずに下位ランクで再構成することはできない。
本稿では,動的低ランク適応のための効率的な量子化手法として,qdylora -quantized dynamic low-rank adaptation-を提案する。
Dynamic LoRAによって動機付けられたQDyLoRAは、事前に定義されたLoRAランクのセット上で、LLMを効率的に微調整することができる。
QDyLoRAは1ラウンドの微調整により、32GBのV100-GPU上で1から64ランクのファルコン40bを微調整できる。
実験の結果,QDyLoRAはQLoRAと競合し,最適ランクを用いた場合よりも優れていた。
関連論文リスト
- ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。
提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。
NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-28T04:33:20Z) - PeriodicLoRA: Breaking the Low-Rank Bottleneck in LoRA Optimization [39.30090456724925]
監視された微調整は、下流タスクに大規模言語モデル(LLM)を適用する最も一般的な方法である。
完全な微調整には膨大な計算資源が必要である。
LoRAは最も広く使われている手法の1つであり、最適化過程は本質的に低次元であると仮定する。
論文 参考訳(メタデータ) (2024-02-25T16:43:41Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [55.00074572087611]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - MultiLoRA: Democratizing LoRA for Better Multi-Task Learning [20.750808913757396]
LoRAは、特定のタスクにLLMを適用する際に、顕著なリソース効率と同等のパフォーマンスを達成する。
LoRAは少数のトップ特異ベクトルに支配され、微調整はより重要でないユニタリ変換の集合に分解される。
我々は,LoRAで観測されるトップ特異ベクトルの優位性を低減し,マルチタスク適応性を向上するMultiLoRAを提案する。
論文 参考訳(メタデータ) (2023-11-20T02:59:18Z) - The Expressive Power of Low-Rank Adaptation [13.434288885772496]
パラメータ効率のよい微調整法である低ランク適応は、微調整事前学習モデルの代表的な手法として登場した。
本稿では,LoRAの表現力を理論的に解析することで,ギャップを埋める第一歩を踏み出す。
トランスフォーマーネットワークでは、任意のモデルが、ランク=$(fractextembedding size2)$ LoRAで同じサイズのターゲットモデルに適応可能であることを示す。
論文 参考訳(メタデータ) (2023-10-26T16:08:33Z) - LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models [104.23434818428062]
我々は、事前訓練されたモデルに量子化とLoRA微調整を併用するシナリオに焦点を当てる。
本稿では,新しい量子化フレームワークであるLoftQ(LoRA-Fine-Tuning-Aware Quantization)を提案する。
実験の結果,本手法は有効であり,既存の量子化法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T18:34:08Z) - QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
その動機は量子化と適応の自由の不均衡度にある。
QA-LoRAは数行のコードで簡単に実装できる。
論文 参考訳(メタデータ) (2023-09-26T07:22:23Z) - LoRA-FA: Memory-efficient Low-rank Adaptation for Large Language Models
Fine-tuning [19.08716369943138]
本稿では,性能劣化やコストのかかる再計算を伴わずに,メモリ効率のよい微調整法であるLoRA-FAを提案する。
この結果から,LORA-FAは全パラメータの微調整やLORAと比較して,各タスクにまたがる精密調整の精度が常に高いことがわかった。
論文 参考訳(メタデータ) (2023-08-07T05:12:27Z) - DyLoRA: Parameter Efficient Tuning of Pre-trained Models using Dynamic
Search-Free Low-Rank Adaptation [18.922066770467914]
ローランクアダプタ(LoRA)は、モデルの主要なトレーニング済み重量を凍結させ、学習可能なSVDモジュールをモデルに導入する。
LoRAブロックはパラメータ効率が高いが、2つの大きな問題に悩まされている。
これら2つの問題を解決するために,動的低ランク適応(DyLoRA)技術を導入する。
論文 参考訳(メタデータ) (2022-10-14T06:29:22Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。