論文の概要: QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models
- arxiv url: http://arxiv.org/abs/2309.14717v2
- Date: Mon, 9 Oct 2023 07:39:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 03:06:00.906664
- Title: QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models
- Title(参考訳): QA-LoRA:大規模言語モデルの量子化を考慮した低ランク適応
- Authors: Yuhui Xu, Lingxi Xie, Xiaotao Gu, Xin Chen, Heng Chang, Hengheng
Zhang, Zhengsu Chen, Xiaopeng Zhang, Qi Tian
- Abstract要約: 量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
その動機は量子化と適応の自由の不均衡度にある。
QA-LoRAは数行のコードで簡単に実装できる。
- 参考スコア(独自算出の注目度): 85.02796681773447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently years have witnessed a rapid development of large language models
(LLMs). Despite the strong ability in many language-understanding tasks, the
heavy computational burden largely restricts the application of LLMs especially
when one needs to deploy them onto edge devices. In this paper, we propose a
quantization-aware low-rank adaptation (QA-LoRA) algorithm. The motivation lies
in the imbalanced degrees of freedom of quantization and adaptation, and the
solution is to use group-wise operators which increase the degree of freedom of
quantization meanwhile decreasing that of adaptation. QA-LoRA is easily
implemented with a few lines of code, and it equips the original LoRA with
two-fold abilities: (i) during fine-tuning, the LLM's weights are quantized
(e.g., into INT4) to reduce time and memory usage; (ii) after fine-tuning, the
LLM and auxiliary weights are naturally integrated into a quantized model
without loss of accuracy. We apply QA-LoRA to the LLaMA and LLaMA2 model
families and validate its effectiveness in different fine-tuning datasets and
downstream scenarios. Code will be made available at
https://github.com/yuhuixu1993/qa-lora.
- Abstract(参考訳): 近年、大規模言語モデル(LLM)の急速な発展が見られた。
多くの言語理解タスクにおいて強力な能力があるにもかかわらず、計算の重荷は特にエッジデバイスにそれらをデプロイする必要がある場合にllmの適用をほとんど制限している。
本稿では,量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
モチベーションは量子化と適応の自由の不均衡の度合いにあり、解は、適応の度合いを減少させながら量子化の自由度を増大させる群ワイズ作用素を使うことである。
QA-LoRAは数行のコードで簡単に実装でき、オリジナルのLoRAには2倍の能力がある。
i) 微調整中、LLMの重みは時間とメモリ使用量を減らすために定量化される(例:INT4)。
2) 微調整後, LLMおよび補助重量は, 精度を損なうことなく自然に量子化モデルに統合される。
我々は、LLaMAおよびLLaMA2モデルファミリーにQA-LoRAを適用し、異なる微調整データセットと下流シナリオでの有効性を検証する。
コードはhttps://github.com/yuhuixu1993/qa-loraで入手できる。
関連論文リスト
- L4Q: Parameter Efficient Quantization-Aware Training on Large Language
Models via LoRA-wise LSQ [5.962184741057505]
学習後量子化(PTQ)と量子化対応学習(QAT)の手法は,資源制約のあるシナリオで人気を集めている。
パラメータ効率を考慮した量子化学習アルゴリズムL4Qを提案する。
論文 参考訳(メタデータ) (2024-02-07T14:35:05Z) - ApiQ: Finetuning of 2-Bit Quantized Large Language Model [7.621880623381026]
ApiQは、LoRAコンポーネントを並列に初期化し、LLMの重みを定量化することで、失われた情報を量子化から復元するように設計されている。
量子化の様々なビット幅にわたって優れた微調整結果が得られる。
論文 参考訳(メタデータ) (2024-02-07T09:36:54Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - LQER: Low-Rank Quantization Error Reconstruction for LLMs [13.205129808742862]
本稿では,量子化と低ランク近似を組み合わせたLQER(Low-rank Quantization Error Reduction)を導入する。
既存の方法とは異なり、LQERの計算パターンは特別なScatterとGatherプロセスを必要としない。
我々のW4A8 LLMは6つの人気下流タスクでほぼ無作為に性能を向上する一方、1.36$times$のハードウェアリソースは最先端の最先端手法よりも少ない。
論文 参考訳(メタデータ) (2024-02-04T10:59:52Z) - LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models [104.23434818428062]
我々は、事前訓練されたモデルに量子化とLoRA微調整を併用するシナリオに焦点を当てる。
本稿では,新しい量子化フレームワークであるLoftQ(LoRA-Fine-Tuning-Aware Quantization)を提案する。
実験の結果,本手法は有効であり,既存の量子化法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T18:34:08Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language
Models [59.176603429408225]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
最近のPTQ法はメモリフットプリントの削減に有効であるが、極端に低ビットの量子化に対処できない。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and
Acceleration [55.81584625546475]
アクティベーション・アウェア・ウェイト量子化(AWQ)は、大規模言語モデル(LLM)に対するハードウェアフレンドリーなアプローチである。
AWQはいかなるバックプロパゲーションや再構築にも依存していない。
命令チューニングされたLMと、初めてマルチモーダルなLMに対して優れた量子化性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。