論文の概要: ModuLoRA: Finetuning 3-Bit LLMs on Consumer GPUs by Integrating with
Modular Quantizers
- arxiv url: http://arxiv.org/abs/2309.16119v1
- Date: Thu, 28 Sep 2023 02:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 18:04:21.244555
- Title: ModuLoRA: Finetuning 3-Bit LLMs on Consumer GPUs by Integrating with
Modular Quantizers
- Title(参考訳): ModuLoRA: モジュラ量子化器の統合による消費者向けGPU上の3ビットLCMの微細化
- Authors: Junjie Yin, Jiahao Dong, Yingheng Wang, Christopher De Sa, Volodymyr
Kuleshov
- Abstract要約: 大規模言語モデル(LLM)のためのメモリ効率の高い微調整アルゴリズムを提案する。
我々の手法は、低ランクアダプタ(LoRA)による微調整とユーザ特定量量量化器を統合している。
ModuLoRAは、既存のアプローチに比べてメモリが大幅に少ないため、テキスト分類、自然言語不便、命令追従タスクの競合性能が向上する。
- 参考スコア(独自算出の注目度): 38.16040503271727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a memory-efficient finetuning algorithm for large language models
(LLMs) that supports finetuning LLMs with 65B parameters in 3-bit or 4-bit
precision on as little as one 48GB GPU. Our method, modular low-rank adaptation
(ModuLoRA), integrates any user-specified weight quantizer with finetuning via
low-rank adapters (LoRAs). Our approach relies on a simple
quantization-agnostic backward pass that adaptively materializes low-precision
LLM weights from a custom black-box quantization module. This approach enables
finetuning 3-bit LLMs for the first time--leveraging state-of-the-art 3-bit
OPTQ quantization often outperforms finetuning that relies on less
sophisticated 4-bit and 8-bit methods. In our experiments, ModuLoRA attains
competitive performance on text classification, natural language infernece, and
instruction following tasks using significantly less memory than existing
approaches, and we also surpass the state-of-the-art ROUGE score on a popular
summarization task. We release ModuLoRA together with a series of low-precision
models--including the first family of 3-bit instruction following Alpaca
LLMs--as part of LLMTOOLS, a user-friendly library for quantizing, running, and
finetuning LLMs on consumer GPUs.
- Abstract(参考訳): 65Bパラメータを3ビットまたは4ビットの精度で48GBのGPU上で微調整できる大規模言語モデル(LLM)のメモリ効率向上アルゴリズムを提案する。
モジュール型低ランク適応法 (ModuLoRA) は,低ランクアダプタ (LoRA) による微調整とユーザ特定量量量化器を統合している。
我々の手法は、ブラックボックス量子化モジュールからの低精度LCM重みを適応的に実現する単純な量子化に依存している。
このアプローチは、最先端の3ビット OPTQ量子化を平均化する最初の3ビットLCMの微調整を可能にする。
実験では,既存の手法に比べてはるかに少ないメモリでテキスト分類,自然言語推論,命令追従タスクにおいて,モジュローラは競争性能を達成し,一般的な要約タスクでは最先端のルージュスコアを上回った。
私たちはmoduloraを、alpaca llmsに続く3ビット命令の最初のファミリーを含む一連の低精度モデルとともに、消費者向けgpu上でllmsを定量化し、実行し、微調整するためのユーザフレンドリーなライブラリであるllmtoolsの一部としてリリースしました。
関連論文リスト
- OneBit: Towards Extremely Low-bit Large Language Models [69.15388378646395]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは、堅牢なトレーニングプロセスで優れたパフォーマンス(少なくとも、非量子化パフォーマンスの83%)を達成する。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized
Large Language Models [37.516453975389624]
大規模言語モデル(LLM)の微調整は、様々な下流タスクに実験的に有効である。
LLMを微調整するための既存のアプローチは、パラメータ効率の良い微調整に焦点を当てるか、トレーニングフェーズ中にメモリフットプリントを減らそうとする。
本稿では,2段プロセスを介して動作することで,LLMのメモリ効率と高速な微調整を可能にする量子化サイドチューニング(QST)を提案する。
論文 参考訳(メタデータ) (2024-01-13T21:00:21Z) - Extreme Compression of Large Language Models via Additive Quantization [62.84823657536936]
我々の研究は、MCQファミリーの古典的なアルゴリズムであるAdditive Quantizationの上に構築され、それを言語モデルの量子化に適応させる。
結果として得られたアルゴリズムはLLM圧縮の最先端を推し進め、与えられた圧縮予算の精度で最近提案されたすべての技術より優れている。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient
Language Model Finetuning [73.03525981320749]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models [14.929695160346276]
大規模言語モデル(LLM)は優れた性能を示すが、計算とメモリ集約性がある。
SmoothQuant, トレーニング不要, 精度保存, 汎用的なポストトレーニング量子化ソリューションを提案する。
最大1.56倍の高速化と2倍のメモリ削減を実現した。
論文 参考訳(メタデータ) (2022-11-18T18:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。