論文の概要: ModuLoRA: Finetuning 2-Bit LLMs on Consumer GPUs by Integrating with
Modular Quantizers
- arxiv url: http://arxiv.org/abs/2309.16119v2
- Date: Sun, 10 Mar 2024 03:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 16:08:04.180835
- Title: ModuLoRA: Finetuning 2-Bit LLMs on Consumer GPUs by Integrating with
Modular Quantizers
- Title(参考訳): ModuLoRA: モジュラ量子化器の統合によるコンシューマGPU上の2ビットLLMの微細化
- Authors: Junjie Yin, Jiahao Dong, Yingheng Wang, Christopher De Sa, Volodymyr
Kuleshov
- Abstract要約: 大規模言語モデル(LLM)のためのメモリ効率の高い微調整アルゴリズムを提案する。
lploraは、テキスト分類、自然言語推論、タスクに続く命令に対する競合性能を、既存のアプローチよりもはるかに少ないメモリで実現している。
私たちはまた、一般的な要約タスクにおいて最先端のROUGEスコアを超えます。
- 参考スコア(独自算出の注目度): 38.16040503271727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a memory-efficient finetuning algorithm for large language models
(LLMs) that supports finetuning LLMs with 65B parameters in 2/3/4-bit precision
on as little as one 24GB GPU. Our method, modular low-rank adaptation
(ModuLoRA), integrates any user-specified weight quantizer with finetuning via
low-rank adapters (LoRAs). Our approach relies on a simple
quantization-agnostic backward pass that adaptively materializes low-precision
LLM weights from a custom black-box quantization module. This approach enables
finetuning 2-bit and 3-bit LLMs for the first time -- leveraging
state-of-the-art 2-bit QuIP\# quantization and 3-bit OPTQ quantization --
outperforming finetuning that relies on less sophisticated 4-bit and 8-bit
methods. In our experiments, \lplora~attains competitive performance on text
classification, natural language inference, and instruction following tasks
using significantly less memory than existing approaches, and we also surpass
the state-of-the-art ROUGE score on a popular summarization task. We release
\lplora~together with a series of low-precision models as part of \llmtune, a
user-friendly library for quantizing, running, and finetuning LLMs on consumer
GPUs.
- Abstract(参考訳): 65Bパラメータを2/3/4ビットの精度で最大24GBのGPU上で微調整できる大規模言語モデル(LLM)のメモリ効率向上アルゴリズムを提案する。
モジュール型低ランク適応法 (ModuLoRA) は,低ランクアダプタ (LoRA) による微調整とユーザ特定量量量化器を統合している。
我々の手法は、ブラックボックス量子化モジュールからの低精度LCM重みを適応的に実現する単純な量子化に依存している。
このアプローチは、最先端の2ビットQuIP\#量子化と3ビットOPTQ量子化を利用する2ビットと3ビットのLLMを初めて微調整できる。
提案手法では,テキスト分類,自然言語推論,命令追従タスクにおいて,従来の手法に比べてはるかに少ないメモリで性能が向上し,一般的な要約タスクでは最先端のルージュスコアを上回った。
我々は,コンシューマGPU上でLLMを定量化し,実行し,微調整するユーザフレンドリーなライブラリである \llmtune の一部として,一連の低精度モデルで \lplora~together をリリースする。
関連論文リスト
- OneBit: Towards Extremely Low-bit Large Language Models [69.15388378646395]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは、堅牢なトレーニングプロセスで優れたパフォーマンス(少なくとも、非量子化パフォーマンスの83%)を達成する。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized
Large Language Models [37.516453975389624]
大規模言語モデル(LLM)の微調整は、様々な下流タスクに実験的に有効である。
LLMを微調整するための既存のアプローチは、パラメータ効率の良い微調整に焦点を当てるか、トレーニングフェーズ中にメモリフットプリントを減らそうとする。
本稿では,2段プロセスを介して動作することで,LLMのメモリ効率と高速な微調整を可能にする量子化サイドチューニング(QST)を提案する。
論文 参考訳(メタデータ) (2024-01-13T21:00:21Z) - Extreme Compression of Large Language Models via Additive Quantization [62.84823657536936]
我々の研究は、MCQファミリーの古典的なアルゴリズムであるAdditive Quantizationの上に構築され、それを言語モデルの量子化に適応させる。
結果として得られたアルゴリズムはLLM圧縮の最先端を推し進め、与えられた圧縮予算の精度で最近提案されたすべての技術より優れている。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient
Language Model Finetuning [73.03525981320749]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models [14.929695160346276]
大規模言語モデル(LLM)は優れた性能を示すが、計算とメモリ集約性がある。
SmoothQuant, トレーニング不要, 精度保存, 汎用的なポストトレーニング量子化ソリューションを提案する。
最大1.56倍の高速化と2倍のメモリ削減を実現した。
論文 参考訳(メタデータ) (2022-11-18T18:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。