論文の概要: QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models
- arxiv url: http://arxiv.org/abs/2309.14717v2
- Date: Mon, 9 Oct 2023 07:39:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 03:06:00.906664
- Title: QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models
- Title(参考訳): QA-LoRA:大規模言語モデルの量子化を考慮した低ランク適応
- Authors: Yuhui Xu, Lingxi Xie, Xiaotao Gu, Xin Chen, Heng Chang, Hengheng
Zhang, Zhengsu Chen, Xiaopeng Zhang, Qi Tian
- Abstract要約: 量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
その動機は量子化と適応の自由の不均衡度にある。
QA-LoRAは数行のコードで簡単に実装できる。
- 参考スコア(独自算出の注目度): 85.02796681773447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently years have witnessed a rapid development of large language models
(LLMs). Despite the strong ability in many language-understanding tasks, the
heavy computational burden largely restricts the application of LLMs especially
when one needs to deploy them onto edge devices. In this paper, we propose a
quantization-aware low-rank adaptation (QA-LoRA) algorithm. The motivation lies
in the imbalanced degrees of freedom of quantization and adaptation, and the
solution is to use group-wise operators which increase the degree of freedom of
quantization meanwhile decreasing that of adaptation. QA-LoRA is easily
implemented with a few lines of code, and it equips the original LoRA with
two-fold abilities: (i) during fine-tuning, the LLM's weights are quantized
(e.g., into INT4) to reduce time and memory usage; (ii) after fine-tuning, the
LLM and auxiliary weights are naturally integrated into a quantized model
without loss of accuracy. We apply QA-LoRA to the LLaMA and LLaMA2 model
families and validate its effectiveness in different fine-tuning datasets and
downstream scenarios. Code will be made available at
https://github.com/yuhuixu1993/qa-lora.
- Abstract(参考訳): 近年、大規模言語モデル(LLM)の急速な発展が見られた。
多くの言語理解タスクにおいて強力な能力があるにもかかわらず、計算の重荷は特にエッジデバイスにそれらをデプロイする必要がある場合にllmの適用をほとんど制限している。
本稿では,量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
モチベーションは量子化と適応の自由の不均衡の度合いにあり、解は、適応の度合いを減少させながら量子化の自由度を増大させる群ワイズ作用素を使うことである。
QA-LoRAは数行のコードで簡単に実装でき、オリジナルのLoRAには2倍の能力がある。
i) 微調整中、LLMの重みは時間とメモリ使用量を減らすために定量化される(例:INT4)。
2) 微調整後, LLMおよび補助重量は, 精度を損なうことなく自然に量子化モデルに統合される。
我々は、LLaMAおよびLLaMA2モデルファミリーにQA-LoRAを適用し、異なる微調整データセットと下流シナリオでの有効性を検証する。
コードはhttps://github.com/yuhuixu1993/qa-loraで入手できる。
関連論文リスト
- Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - Accurate and Efficient Fine-Tuning of Quantized Large Language Models Through Optimal Balance [20.659750151408186]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示している。
パラメータ量子化とローランド適応(LoRA)を組み合わせた既存ソリューション
平衡ランク適応(Q-BaRA)と高ランク適応(QA-HiRA)を考慮した量子化微調整(QA-HiRA)を提案する。
論文 参考訳(メタデータ) (2024-07-24T06:16:37Z) - LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices [41.17378536966264]
低ランク量子化$-$は、大規模言語モデルのための単純だが効果的なポストトレーニング重み量子化法である。
低ランク構造によるパラメータ共有により、LRQは重みの個別のスケーリングを可能にしながら、パラメータを著しく少ない値で学習するのみである。
従来の LLM PTQ よりも, (i) 8$-bit ウェイトおよび (ii) 4$-bit ウェイトおよび (ii) 8$-bit アクティベーション量子化, (iii) 低ビット ウェイトのみの量子化スキームにおける LRQ の優位性を示す。
論文 参考訳(メタデータ) (2024-07-16T09:32:07Z) - Compensate Quantization Errors: Make Weights Hierarchical to Compensate Each Other [10.292252814921714]
本稿では,量子化問題に対する高度な解法として,Learnerable Singular Value Increment(LSI)を導入する。
LSIはSingular Value Decompositionを用いて重みの特異な値を抽出し、重みがアクティベーション時に互いに補償するのに役立つように学習する。
重みのみ、重み付け、超低ビットシナリオによらず、様々な量子化設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-24T03:52:52Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models [104.23434818428062]
我々は、事前訓練されたモデルに量子化とLoRA微調整を併用するシナリオに焦点を当てる。
本稿では,新しい量子化フレームワークであるLoftQ(LoRA-Fine-Tuning-Aware Quantization)を提案する。
実験の結果,本手法は有効であり,既存の量子化法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T18:34:08Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。