論文の概要: QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models
- arxiv url: http://arxiv.org/abs/2310.16795v1
- Date: Wed, 25 Oct 2023 17:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 13:22:14.982164
- Title: QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models
- Title(参考訳): QMoE:トリリオンパラメータモデルの実用的サブ-1ビット圧縮
- Authors: Elias Frantar and Dan Alistarh
- Abstract要約: Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。
本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
- 参考スコア(独自算出の注目度): 64.34635279436054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures offer a general solution to the high
inference costs of large language models (LLMs) via sparse routing, bringing
faster and more accurate models, at the cost of massive parameter counts. For
example, the SwitchTransformer-c2048 model has 1.6 trillion parameters,
requiring 3.2TB of accelerator memory to run efficiently, which makes practical
deployment challenging and expensive. In this paper, we present a solution to
this memory problem, in form of a new compression and execution framework
called QMoE. Specifically, QMoE consists of a scalable algorithm which
accurately compresses trillion-parameter MoEs to less than 1 bit per parameter,
in a custom format co-designed with bespoke GPU decoding kernels to facilitate
efficient end-to-end compressed inference, with minor runtime overheads
relative to uncompressed execution. Concretely, QMoE can compress the 1.6
trillion parameter SwitchTransformer-c2048 model to less than 160GB (20x
compression, 0.8 bits per parameter) at only minor accuracy loss, in less than
a day on a single GPU. This enables, for the first time, the execution of a
trillion-parameter model on affordable commodity hardware, like a single server
with 4x NVIDIA A6000 or 8x NVIDIA 3090 GPUs, at less than 5% runtime overhead
relative to ideal uncompressed inference. The source code and compressed models
are available at github.com/IST-DASLab/qmoe.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、大きな言語モデル(LLM)のスパースルーティングによる高推論コストに対する一般的な解決策を提供する。
例えば、switchtransformer-c2048モデルは1.6兆のパラメータを持ち、効率的に実行するために3.2tbのアクセルメモリを必要とする。
本稿では,このメモリ問題に対する,QMoEと呼ばれる新しい圧縮実行フレームワークの形での解決策を提案する。
具体的には、QMoEは1兆パラメータのMoEを1ビット未満のパラメータに正確に圧縮するスケーラブルなアルゴリズムで構成され、ベスポークGPUデコードカーネルと共同で設計され、効率的なエンドツーエンド圧縮推論を容易にする。
具体的には、QMoEは1.6兆パラメータのSwitchTransformer-c2048モデルを160GB未満(20倍圧縮、パラメータあたり0.8ビット)に1GPUで1日未満で圧縮できる。
これにより、4x NVIDIA A6000または8x NVIDIA 3090 GPUを持つ単一のサーバのような安価なコモディティハードウェア上で、理想的な非圧縮推論と比較して、初めて1兆パラメータモデルを実行することができる。
ソースコードと圧縮モデルはgithub.com/ist-daslab/qmoeで入手できる。
関連論文リスト
- SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - GPTQ: Accurate Post-Training Quantization for Generative Pre-trained
Transformers [34.91478831993398]
GPTQは、近似二階情報に基づく新しい一発量量子化法である。
約4GPU時間で、1750億のパラメータを持つGPTモデルを定量化できる。
提案手法は,従来提案したワンショット量子化法と比較して圧縮ゲインを2倍以上に向上させる。
論文 参考訳(メタデータ) (2022-10-31T13:42:40Z) - DKM: Differentiable K-Means Clustering Layer for Neural Network
Compression [20.73169804006698]
そこで我々は, 列車時重みクラスタリングに基づくモデル圧縮のための, 微分可能なk平均クラスタリング層(DKM)を提案する。
DKMは、k平均クラスタリングを注目問題とし、パラメータの合同最適化とセントロイドのクラスタリングを可能にする。
DKM は ImageNet1k と GLUE のベンチマークにおいて,優れた圧縮と精度のトレードオフをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-28T14:35:41Z) - Random Offset Block Embedding Array (ROBE) for CriteoTB Benchmark MLPerf
DLRM Model : 1000$\times$ Compression and 2.7$\times$ Faster Inference [33.66462823637363]
最先端レコメンデーションモデル(State-the-art recommendation model)は、GPT-3やSwitch Transformerと競合する最大のモデルの一つである。
ディープラーニングレコメンデーションモデル(DLRM)は、それぞれのカテゴリ値に密着した埋め込みを学習することに由来する。
DLRMのモデル圧縮は勢いを増しており、最近コミュニティは印象的な圧縮結果を示している。
論文 参考訳(メタデータ) (2021-08-04T17:28:45Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。