論文の概要: LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient
Language Model Finetuning
- arxiv url: http://arxiv.org/abs/2311.12023v1
- Date: Mon, 20 Nov 2023 18:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 17:27:48.423502
- Title: LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient
Language Model Finetuning
- Title(参考訳): LQ-LoRA:効率的な言語モデルファインタニングのための低ランク・量子行列分解
- Authors: Han Guo, Philip Greengard, Eric P. Xing, Yoon Kim
- Abstract要約: 提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
RoBERTaとLLaMA-2の適応実験により、我々の低ランク+量子化行列分解法(LQ-LoRA)は、強いQLoRAおよびGPTQ-LoRAベースラインより優れていることが示された。
- 参考スコア(独自算出の注目度): 73.03525981320749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a simple approach for memory-efficient adaptation of pretrained
language models. Our approach uses an iterative algorithm to decompose each
pretrained matrix into a high-precision low-rank component and a
memory-efficient quantized component. During finetuning, the quantized
component remains fixed and only the low-rank component is updated. We present
an integer linear programming formulation of the quantization component which
enables dynamic configuration of quantization parameters (e.g., bit-width,
block size) for each matrix given an overall target memory budget. We further
explore a data-aware version of the algorithm which uses an approximation of
the Fisher information matrix to weight the reconstruction objective during
matrix decomposition. Experiments on adapting RoBERTa and LLaMA-2 (7B and 70B)
demonstrate that our low-rank plus quantized matrix decomposition approach
(LQ-LoRA) outperforms strong QLoRA and GPTQ-LoRA baselines and moreover enables
more aggressive quantization. For example, on the OpenAssistant benchmark
LQ-LoRA is able to learn a 2.5-bit LLaMA-2 model that is competitive with a
model finetuned with 4-bit QLoRA. When finetuned on a language modeling
calibration dataset, LQ-LoRA can also be used for model compression; in this
setting our 2.75-bit LLaMA-2-70B model (which has 2.85 bits on average when
including the low-rank components and requires 27GB of GPU memory) is
competitive with the original model in full precision.
- Abstract(参考訳): 本稿では,事前学習言語モデルのメモリ効率向上のための簡単な手法を提案する。
本手法では,各行列を高精度低ランク成分とメモリ効率の良い量子化成分に分解する反復アルゴリズムを用いる。
微調整中、量子化コンポーネントは固定され、ローランクコンポーネントのみが更新される。
本稿では,各行列に対する量子化パラメータ(ビット幅,ブロックサイズなど)の動的構成を可能にする量子化成分の整数線形計画法について述べる。
本研究では,fisher情報行列の近似を用いて,行列分解時の復元目標の重み付けを行うアルゴリズムについて検討する。
RoBERTa と LLaMA-2 (7B, 70B) の適応実験により,我々の低ランク+量子化行列分解法 (LQ-LoRA) が強い QLoRA と GPTQ-LoRA ベースラインを上回り,より積極的な量子化を実現することを示した。
例えば、OpenAssistantベンチマークのLQ-LoRAでは、4ビットQLoRAで微調整されたモデルと競合する2.5ビットのLLaMA-2モデルを学習することができる。
この設定では、2.75ビットのLLaMA-2-70Bモデル(低ランクのコンポーネントを含めると平均2.85ビットで、27GBのGPUメモリを必要とする)は、元のモデルと完全な精度で競合する。
関連論文リスト
- Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - OneBit: Towards Extremely Low-bit Large Language Models [69.15388378646395]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは、堅牢なトレーニングプロセスで優れたパフォーマンス(少なくとも、非量子化パフォーマンスの83%)を達成する。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Extreme Compression of Large Language Models via Additive Quantization [62.84823657536936]
我々の研究は、MCQファミリーの古典的なアルゴリズムであるAdditive Quantizationの上に構築され、それを言語モデルの量子化に適応させる。
結果として得られたアルゴリズムはLLM圧縮の最先端を推し進め、与えられた圧縮予算の精度で最近提案されたすべての技術より優れている。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - ModuLoRA: Finetuning 2-Bit LLMs on Consumer GPUs by Integrating with
Modular Quantizers [38.16040503271727]
大規模言語モデル(LLM)のためのメモリ効率の高い微調整アルゴリズムを提案する。
lploraは、テキスト分類、自然言語推論、タスクに続く命令に対する競合性能を、既存のアプローチよりもはるかに少ないメモリで実現している。
私たちはまた、一般的な要約タスクにおいて最先端のROUGEスコアを超えます。
論文 参考訳(メタデータ) (2023-09-28T02:55:01Z) - LORD: Low Rank Decomposition Of Monolingual Code LLMs For One-Shot
Compression [16.901290551711476]
低ランク分解(LoRD)による単言語コード生成のための大言語モデル(LLM)圧縮の可能性について検討する。
次に、ローランク分解(LoRD)を使用して、StarCoder 16B から 13.2B パラメータをドロップなしで圧縮し、HumanEval Pass@1 スコアを最小値で 12.3B に圧縮します。
論文 参考訳(メタデータ) (2023-09-25T10:35:17Z) - QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。
当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。
我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文 参考訳(メタデータ) (2023-09-05T01:39:09Z) - Weighted Low Rank Matrix Approximation and Acceleration [0.5177947445379687]
低ランク行列近似は機械学習における中心的な概念の1つである。
低ランク行列補完(LRMC)は、いくつかの観測が欠落しているときにLRMA問題を解く。
重み付き問題を解くアルゴリズムと2つの加速手法を提案する。
論文 参考訳(メタデータ) (2021-09-22T22:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。