論文の概要: T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge
- arxiv url: http://arxiv.org/abs/2407.00088v1
- Date: Tue, 25 Jun 2024 08:38:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-07 13:34:23.959695
- Title: T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge
- Title(参考訳): T-MAC: Edge上の低ビットLLMデプロイメントのためのテーブルルックアップによるCPUルネサンス
- Authors: Jianyu Wei, Shijie Cao, Ting Cao, Lingxiao Ma, Lei Wang, Yanyong Zhang, Mao Yang,
- Abstract要約: 本稿では, CPU 上での低ビット LLM (ウェイト量子化 LLM) 推論を効率的に行う革新的なルックアップテーブル T-MAC を提案する。
T-MACは不等化せずにmpGEMMを直接サポートし、同時に乗算を排除し、必要な加算を減らす。
低ビットLlamaモデルとBitNetモデルで評価したところ、T-MACはスループットを最大4倍に向上し、エネルギー消費を70%削減した。
- 参考スコア(独自算出の注目度): 11.305778938818937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of Large Language Models (LLMs) on edge devices is increasingly important to enhance on-device intelligence. Weight quantization is crucial for reducing the memory footprint of LLMs on devices. However, low-bit LLMs necessitate mixed precision matrix multiplication (mpGEMM) of low precision weights and high precision activations during inference. Existing systems, lacking native support for mpGEMM, resort to dequantize weights for high precision computation. Such an indirect way can lead to a significant inference overhead. In this paper, we introduce T-MAC, an innovative lookup table(LUT)-based method designed for efficient low-bit LLM (i.e., weight-quantized LLM) inference on CPUs. T-MAC directly supports mpGEMM without dequantization, while simultaneously eliminating multiplications and reducing additions required. Specifically, T-MAC transforms the traditional data-type-centric multiplication to bit-wise table lookup, and enables a unified and scalable mpGEMM solution. Our LUT-based kernels scale linearly to the weight bit-width. Evaluated on low-bit Llama and BitNet models, T-MAC demonstrates up to 4x increase in throughput and 70% reduction in energy consumption compared to llama.cpp. For BitNet-b1.58-3B, T-MAC delivers a token generation throughput of 30 tokens/s with a single core and 71 tokens/s with eight cores on M2-Ultra, and 11 tokens/s on lower-end devices like Raspberry Pi 5, which significantly exceeds the adult average reading speed. T-MAC with LUT-based computing paradigm, paves the way for the practical deployment of low-bit LLMs on resource-constrained edge devices without compromising computational efficiency. The system is open-sourced at https://github.com/microsoft/T-MAC.
- Abstract(参考訳): エッジデバイスへのLLM(Large Language Models)の展開は、デバイス上のインテリジェンスを強化する上でますます重要になっている。
軽量量子化は、デバイス上のLCMのメモリフットプリントを削減するために重要である。
しかし、低ビットLLMは、低精度重みの混合精度行列乗法(mpGEMM)と推論時の高精度アクティベーションを必要とする。
mpGEMMをネイティブにサポートしていない既存のシステムは、高精度な計算のために重みを定量化する。
このような間接的な方法は、大きな推論オーバーヘッドにつながる可能性がある。
本稿では,CPU上での低ビットLSM(すなわち重み量子化LSM)の推論を効率的に行うために設計した,革新的なルックアップテーブル(LUT)であるT-MACを紹介する。
T-MACは不等化せずにmpGEMMを直接サポートし、同時に乗算を排除し、必要な加算を減らす。
具体的には、T-MACは従来のデータ型中心乗算をビットワイズテーブルルックアップに変換し、統一的でスケーラブルなmpGEMMソリューションを可能にする。
LUTベースのカーネルは、ウェイトビット幅に線形にスケールする。
低ビットのLlamaとBitNetモデルで評価されたT-MACは、llama.cppに比べてスループットが最大4倍に向上し、エネルギー消費が70%減少することを示した。
BitNet-b1.58-3Bでは、T-MACはシングルコアで30トークン/秒、M2-Ultraで71トークン/秒、Raspberry Pi 5のようなローエンドデバイスで11トークン/秒のトークン生成スループットを提供する。
LUTベースの計算パラダイムを持つT-MACは、計算効率を損なうことなく、リソース制約のあるエッジデバイスに低ビットのLLMを実用的に展開する道を開く。
このシステムはhttps://github.com/microsoft/T-MACで公開されている。
関連論文リスト
- BitMoD: Bit-serial Mixture-of-Datatype LLM Acceleration [7.774285511386959]
大規模言語モデル(LLM)は、さまざまな機械学習タスクで顕著なパフォーマンスを示している。
しかし、LLMのかなりのメモリフットプリントは、そのデプロイメントを著しく妨げている。
我々は,アルゴリズムとハードウェアの共同設計ソリューションであるBitMoDを用いて,LLMのアクセシビリティを向上させる。
論文 参考訳(メタデータ) (2024-11-18T17:16:58Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - LUT Tensor Core: Lookup Table Enables Efficient Low-Bit LLM Inference Acceleration [10.608817382813786]
混合精度行列乗算(英: Mixed-precision matrix multiplication, mpGEMM)は、より高精度な活性化を伴う低精度重みを乗算する重要な演算である。
現在のハードウェアはmpGEMMをサポートしておらず、間接的かつ非効率な復号化ベースの実装をもたらす。
低ビットLLM推論に最適化されたハードウェアの共同設計であるLUT Coreを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:52:14Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - BSC: Block-based Stochastic Computing to Enable Accurate and Efficient
TinyML [10.294484356351152]
マシンラーニング(ML)は、スマートフォンや自動運転など、エッジアプリケーションに成功している。
現在、多くのアプリケーションは、TinyMLとして知られる移植可能な除細動器(ICD)のような非常に限られたリソースを持つ小さなデバイスでMLを必要とする。
エッジのMLとは異なり、限られたエネルギー供給を持つTinyMLは低電力実行に対する要求が高い。
論文 参考訳(メタデータ) (2021-11-12T12:28:05Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z) - Q-EEGNet: an Energy-Efficient 8-bit Quantized Parallel EEGNet
Implementation for Edge Motor-Imagery Brain--Machine Interfaces [16.381467082472515]
運動画像脳-機械インタフェース(MI-BMI)は、人間の脳と機械間の直接的かつアクセス可能なコミュニケーションをプロミットする。
脳波信号を分類するためのディープラーニングモデルが登場した。
これらのモデルは、メモリと計算要求のため、エッジデバイスの限界を超えることが多い。
論文 参考訳(メタデータ) (2020-04-24T12:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。