論文の概要: LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale
- arxiv url: http://arxiv.org/abs/2208.07339v1
- Date: Mon, 15 Aug 2022 17:08:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 13:15:04.914032
- Title: LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale
- Title(参考訳): LLM.int8():大規模変圧器の8ビット行列乗算
- Authors: Tim Dettmers, Mike Lewis, Younes Belkada, Luke Zettlemoyer
- Abstract要約: トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
- 参考スコア(独自算出の注目度): 80.86029795281922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have been widely adopted but require significant GPU
memory for inference. We develop a procedure for Int8 matrix multiplication for
feed-forward and attention projection layers in transformers, which cut the
memory needed for inference by half while retaining full precision performance.
With our method, a 175B parameter 16/32-bit checkpoint can be loaded, converted
to Int8, and used immediately without performance degradation. This is made
possible by understanding and working around properties of highly systematic
emergent features in transformer language models that dominate attention and
transformer predictive performance. To cope with these features, we develop a
two-part quantization procedure, LLM.int8(). We first use vector-wise
quantization with separate normalization constants for each inner product in
the matrix multiplication, to quantize most of the features. However, for the
emergent outliers, we also include a new mixed-precision decomposition scheme,
which isolates the outlier feature dimensions into a 16-bit matrix
multiplication while still more than 99.9% of values are multiplied in 8-bit.
Using LLM.int8(), we show empirically it is possible to perform inference in
LLMs with up to 175B parameters without any performance degradation. This
result makes such models much more accessible, for example making it possible
to use OPT-175B/BLOOM on a single server with consumer GPUs.
- Abstract(参考訳): 大規模な言語モデルが広く採用されているが、推論には大きなgpuメモリを必要とする。
Int8行列乗算法をトランスのフィードフォワードおよびアテンションプロジェクション層に適用し,完全な精度を維持しながら推論に必要なメモリを半減する手法を開発した。
提案手法では,175Bパラメータ16/32ビットのチェックポイントをロードし,Int8に変換し,性能劣化なしに即座に使用することができる。
これは、注目とトランスフォーマー予測性能を支配するトランスフォーマー言語モデルにおいて、高度に体系化された創発的特徴の性質を理解し、取り巻くことで実現される。
これらの特徴に対処するため, 2部量子化法, LLM.int8() を開発した。
まず、行列乗算における各内積の正規化定数を分離したベクトルワイド量子化を用いて、ほとんどの特徴を定量化する。
しかし、創発的外乱に対しては、新しい混合精度分解スキームも含み、外乱的特徴次元を16ビットの行列乗算に分離すると同時に、99.9%以上の値を8ビットで乗算する。
LLM.int8()を用いて,最大175Bのパラメータを持つLLMにおいて,性能劣化を伴わずに推論を行うことができることを示す。
この結果、コンシューマGPUを使用した単一サーバでOPT-175B/BLOOMを使用できるようになるなど、このようなモデルの方がはるかにアクセスしやすい。
関連論文リスト
- ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models [9.444063879246242]
本稿では,新しい任意のビット量子化アルゴリズムと推論フレームワークであるABQ-LLMを紹介する。
様々な量子化設定において優れた性能を実現し、GPU上で効率的な任意の精度の量子化推論を可能にする。
論文 参考訳(メタデータ) (2024-08-16T06:39:08Z) - Scalable MatMul-free Language Modeling [8.672867887354977]
MatMul操作は大規模言語モデルから完全に除去可能であることを示す。
提案するMatMulフリーモデルは,最先端のトランスフォーマーと同等の性能を実現する。
論文 参考訳(メタデータ) (2024-06-04T17:50:34Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Towards Fully 8-bit Integer Inference for the Transformer Model [39.22272841663168]
トランスフォーマーと呼ばれるトランスフォーマーアーキテクチャを原理的に修正した後、(ほぼ)完全8ビット整数推論アルゴリズムが導出可能であることを示す。
We experiment on WMT16 En->Ro, WMT14 En->De and En->Fr translation task as the WikiText-103 language modelling task shows that the fully 8-bit Transformer system achieves comparable performance with the floating point baseline but nearly 4x less memory footprint。
論文 参考訳(メタデータ) (2020-09-17T03:09:10Z) - Learning Accurate Integer Transformer Machine-Translation Models [0.05184427980355132]
本論文では、8ビット整数(INT8)ハードウェア行列乗算器を用いて推論を行うための正確なトランスフォーマー機械翻訳モデルの訓練方法について述べる。
提案手法は,既存のFP32モデルからの行列乗算テンソルをすべてINT8テンソルに変換する。
論文 参考訳(メタデータ) (2020-01-03T18:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。