論文の概要: INT2.1: Towards Fine-Tunable Quantized Large Language Models with Error
Correction through Low-Rank Adaptation
- arxiv url: http://arxiv.org/abs/2306.08162v1
- Date: Tue, 13 Jun 2023 22:25:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 22:44:59.615426
- Title: INT2.1: Towards Fine-Tunable Quantized Large Language Models with Error
Correction through Low-Rank Adaptation
- Title(参考訳): INT2.1:低ランク適応による誤り訂正を伴う微細可変量子化大言語モデルを目指して
- Authors: Yuji Chai, John Gkountouras, Glenn G. Ko, David Brooks, Gu-Yeon Wei
- Abstract要約: 本稿では,微調整されたVRAM要求を劇的に削減し,量子化された大言語モデルにおける量子化誤差を補正する手法を提案する。
提案手法は, 最大5.6倍のメモリ要求を削減し, 一般向けラップトップ上で70億パラメータのLLM(Large Language Model)を微調整することができる。
- 参考スコア(独自算出の注目度): 5.837035655563323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a method that dramatically reduces fine-tuning VRAM requirements
and rectifies quantization errors in quantized Large Language Models. First, we
develop an extremely memory-efficient fine-tuning (EMEF) method for quantized
models using Low-Rank Adaptation (LoRA), and drawing upon it, we construct an
error-correcting algorithm designed to minimize errors induced by the
quantization process. Our method reduces the memory requirements by up to 5.6
times, which enables fine-tuning a 7 billion parameter Large Language Model
(LLM) on consumer laptops. At the same time, we propose a Low-Rank Error
Correction (LREC) method that exploits the added LoRA layers to ameliorate the
gap between the quantized model and its float point counterpart. Our error
correction framework leads to a fully functional INT2 quantized LLM with the
capacity to generate coherent English text. To the best of our knowledge, this
is the first INT2 Large Language Model that has been able to reach such a
performance. The overhead of our method is merely a 1.05 times increase in
model size, which translates to an effective precision of INT2.1. Also, our
method readily generalizes to other quantization standards, such as INT3, INT4,
and INT8, restoring their lost performance, which marks a significant milestone
in the field of model quantization. The strategies delineated in this paper
hold promising implications for the future development and optimization of
quantized models, marking a pivotal shift in the landscape of low-resource
machine learning computations.
- Abstract(参考訳): 本稿では,vramの微調整を劇的に削減し,量子化誤差を定量化する手法を提案する。
まず,低ランク適応法(lora)を用いた量子化モデルのメモリ効率の高い微調整法(emef)を開発し,その上で,量子化過程による誤差を最小限に抑えるように設計された誤り訂正アルゴリズムを構築する。
提案手法は, 最大5.6倍のメモリ要求を削減し, 一般向けラップトップ上で70億パラメータのLLM(Large Language Model)を微調整することができる。
同時に,lora層を付加して量子化モデルと浮動小数点間のギャップを改善する低ランク誤差補正(lrec)法を提案する。
我々の誤り訂正フレームワークは、コヒーレントな英語テキストを生成する能力を備えた、完全に機能的なINT2量子化LLMにつながる。
私たちの知る限りでは、このようなパフォーマンスに到達できたのは、これが初めてのINT2 Large Language Modelです。
提案手法のオーバーヘッドは, モデルサイズが1.05倍大きくなるだけで, INT2.1の精度が向上する。
また, int3, int4, int8などの他の量子化標準に容易に一般化し, モデル量子化の分野で重要なマイルストーンとなる性能を回復する。
本稿では、量子化モデルの今後の発展と最適化に有望な意味を持ち、低リソースの機械学習計算のランドスケープにおける重要な変化を示す。
関連論文リスト
- ApiQ: Finetuning of 2-Bit Quantized Large Language Model [7.621880623381026]
ApiQは、LoRAコンポーネントを並列に初期化し、LLMの重みを定量化することで、失われた情報を量子化から復元するように設計されている。
量子化の様々なビット幅にわたって優れた微調整結果が得られる。
論文 参考訳(メタデータ) (2024-02-07T09:36:54Z) - LQER: Low-Rank Quantization Error Reconstruction for LLMs [13.205129808742862]
本稿では,量子化と低ランク近似を組み合わせたLQER(Low-rank Quantization Error Reduction)を導入する。
既存の方法とは異なり、LQERの計算パターンは特別なScatterとGatherプロセスを必要としない。
我々のW4A8 LLMは6つの人気下流タスクでほぼ無作為に性能を向上する一方、1.36$times$のハードウェアリソースは最先端の最先端手法よりも少ない。
論文 参考訳(メタデータ) (2024-02-04T10:59:52Z) - Extreme Compression of Large Language Models via Additive Quantization [62.84823657536936]
我々の研究は、MCQファミリーの古典的なアルゴリズムであるAdditive Quantizationの上に構築され、それを言語モデルの量子化に適応させる。
結果として得られたアルゴリズムはLLM圧縮の最先端を推し進め、与えられた圧縮予算の精度で最近提案されたすべての技術より優れている。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models [104.23434818428062]
我々は、事前訓練されたモデルに量子化とLoRA微調整を併用するシナリオに焦点を当てる。
本稿では,新しい量子化フレームワークであるLoftQ(LoRA-Fine-Tuning-Aware Quantization)を提案する。
実験の結果,本手法は有効であり,既存の量子化法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T18:34:08Z) - QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources [37.265708531464746]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに顕著な影響を与えている。
これらのトレーニング済みモデルを下流データセットに微調整することで、さらなる大幅なパフォーマンス向上が達成されるが、このプロセスは異常なリソース要求のために困難だった。
性能を損なうことなくメモリ効率のよい微調整を可能にするLLMのための新しい量子フルパラメータチューニングフレームワークQFTを提案する。
論文 参考訳(メタデータ) (2023-10-11T02:47:40Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。