論文の概要: INT2.1: Towards Fine-Tunable Quantized Large Language Models with Error
Correction through Low-Rank Adaptation
- arxiv url: http://arxiv.org/abs/2306.08162v1
- Date: Tue, 13 Jun 2023 22:25:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 22:44:59.615426
- Title: INT2.1: Towards Fine-Tunable Quantized Large Language Models with Error
Correction through Low-Rank Adaptation
- Title(参考訳): INT2.1:低ランク適応による誤り訂正を伴う微細可変量子化大言語モデルを目指して
- Authors: Yuji Chai, John Gkountouras, Glenn G. Ko, David Brooks, Gu-Yeon Wei
- Abstract要約: 本稿では,微調整されたVRAM要求を劇的に削減し,量子化された大言語モデルにおける量子化誤差を補正する手法を提案する。
提案手法は, 最大5.6倍のメモリ要求を削減し, 一般向けラップトップ上で70億パラメータのLLM(Large Language Model)を微調整することができる。
- 参考スコア(独自算出の注目度): 5.837035655563323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a method that dramatically reduces fine-tuning VRAM requirements
and rectifies quantization errors in quantized Large Language Models. First, we
develop an extremely memory-efficient fine-tuning (EMEF) method for quantized
models using Low-Rank Adaptation (LoRA), and drawing upon it, we construct an
error-correcting algorithm designed to minimize errors induced by the
quantization process. Our method reduces the memory requirements by up to 5.6
times, which enables fine-tuning a 7 billion parameter Large Language Model
(LLM) on consumer laptops. At the same time, we propose a Low-Rank Error
Correction (LREC) method that exploits the added LoRA layers to ameliorate the
gap between the quantized model and its float point counterpart. Our error
correction framework leads to a fully functional INT2 quantized LLM with the
capacity to generate coherent English text. To the best of our knowledge, this
is the first INT2 Large Language Model that has been able to reach such a
performance. The overhead of our method is merely a 1.05 times increase in
model size, which translates to an effective precision of INT2.1. Also, our
method readily generalizes to other quantization standards, such as INT3, INT4,
and INT8, restoring their lost performance, which marks a significant milestone
in the field of model quantization. The strategies delineated in this paper
hold promising implications for the future development and optimization of
quantized models, marking a pivotal shift in the landscape of low-resource
machine learning computations.
- Abstract(参考訳): 本稿では,vramの微調整を劇的に削減し,量子化誤差を定量化する手法を提案する。
まず,低ランク適応法(lora)を用いた量子化モデルのメモリ効率の高い微調整法(emef)を開発し,その上で,量子化過程による誤差を最小限に抑えるように設計された誤り訂正アルゴリズムを構築する。
提案手法は, 最大5.6倍のメモリ要求を削減し, 一般向けラップトップ上で70億パラメータのLLM(Large Language Model)を微調整することができる。
同時に,lora層を付加して量子化モデルと浮動小数点間のギャップを改善する低ランク誤差補正(lrec)法を提案する。
我々の誤り訂正フレームワークは、コヒーレントな英語テキストを生成する能力を備えた、完全に機能的なINT2量子化LLMにつながる。
私たちの知る限りでは、このようなパフォーマンスに到達できたのは、これが初めてのINT2 Large Language Modelです。
提案手法のオーバーヘッドは, モデルサイズが1.05倍大きくなるだけで, INT2.1の精度が向上する。
また, int3, int4, int8などの他の量子化標準に容易に一般化し, モデル量子化の分野で重要なマイルストーンとなる性能を回復する。
本稿では、量子化モデルの今後の発展と最適化に有望な意味を持ち、低リソースの機械学習計算のランドスケープにおける重要な変化を示す。
関連論文リスト
- Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - SLiM: One-shot Quantized Sparse Plus Low-rank Approximation of LLMs [2.7624021966289605]
大規模言語モデル(LLM)は、自然言語の理解と生成タスクに革命をもたらした。
LLMは、大きなパラメータサイズのため、メモリ消費が高く、推論時間が遅い。
本稿では,1ショットの量子スパースプラス低ランク近似を用いたLEMの圧縮手法であるSLiMを紹介する。
論文 参考訳(メタデータ) (2024-10-12T18:36:07Z) - Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - TernaryLLM: Ternarized Large Language Model [29.29122031050894]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成した。
本稿では、Dual Learnable Ternarization (DLT)を導入し、スケールとシフトの両方を学習可能にする。
また、極低ビット量子化で失われた情報を復元するために、OFF(Outlier-Friendly Feature Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2024-06-11T11:40:12Z) - Characterizing the Accuracy -- Efficiency Trade-off of Low-rank Decomposition in Language Models [1.401463252785724]
低ランクの分解は、大規模にリアルタイムサービスを必要とするLLMベースのアプリケーションにとって有望な方向である。
低ランクな分解設計空間を形式化し、分解設計空間が巨大であることを示す。
以上の結果から,最小精度で9%のモデルサイズ削減を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-10T17:40:02Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。