論文の概要: BitMoD: Bit-serial Mixture-of-Datatype LLM Acceleration
- arxiv url: http://arxiv.org/abs/2411.11745v1
- Date: Mon, 18 Nov 2024 17:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:32:24.112367
- Title: BitMoD: Bit-serial Mixture-of-Datatype LLM Acceleration
- Title(参考訳): BitMoD:bit-serial Mixture-of-Datatype LLM Acceleration
- Authors: Yuzong Chen, Ahmed F. AbouElhamayed, Xilai Dai, Yang Wang, Marta Andronic, George A. Constantinides, Mohamed S. Abdelfattah,
- Abstract要約: 大規模言語モデル(LLM)は、さまざまな機械学習タスクで顕著なパフォーマンスを示している。
しかし、LLMのかなりのメモリフットプリントは、そのデプロイメントを著しく妨げている。
我々は,アルゴリズムとハードウェアの共同設計ソリューションであるBitMoDを用いて,LLMのアクセシビリティを向上させる。
- 参考スコア(独自算出の注目度): 7.774285511386959
- License:
- Abstract: Large language models (LLMs) have demonstrated remarkable performance across various machine learning tasks. Yet the substantial memory footprint of LLMs significantly hinders their deployment. In this paper, we improve the accessibility of LLMs through BitMoD, an algorithm-hardware co-design solution that enables efficient LLM acceleration at low weight precision. On the algorithm side, BitMoD introduces fine-grained data type adaptation that uses a different numerical data type to quantize a group of (e.g., 128) weights. Through the careful design of these new data types, BitMoD is able to quantize LLM weights to very low precision (e.g., 4 bits and 3 bits) while maintaining high accuracy. On the hardware side, BitMoD employs a bit-serial processing element to easily support multiple numerical precisions and data types; our hardware design includes two key innovations: First, it employs a unified representation to process different weight data types, thus reducing the hardware cost. Second, it adopts a bit-serial dequantization unit to rescale the per-group partial sum with minimal hardware overhead. Our evaluation on six representative LLMs demonstrates that BitMoD significantly outperforms state-of-the-art LLM quantization and acceleration methods. For discriminative tasks, BitMoD can quantize LLM weights to 4-bit with $<\!0.5\%$ accuracy loss on average. For generative tasks, BitMoD is able to quantize LLM weights to 3-bit while achieving better perplexity than prior LLM quantization scheme. Combining the superior model performance with an efficient accelerator design, BitMoD achieves an average of $1.69\times$ and $1.48\times$ speedups compared to prior LLM accelerators ANT and OliVe, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな機械学習タスクで顕著なパフォーマンスを示している。
しかし、LLMのかなりのメモリフットプリントは、そのデプロイメントを著しく妨げている。
本稿では,低ウェイト精度で効率的なLCM加速を実現するアルゴリズム-ハードウェア共設計ソリューションであるBitMoDを用いて,LCMのアクセシビリティを向上させる。
アルゴリズム側では、BitMoDは、異なる数値データ型を使用して(例えば、128)重みのグループを定量化する、きめ細かいデータ型適応を導入している。
これらの新しいデータ型を慎重に設計することで、BitMoDは高い精度を維持しながらLLM重量を非常に低い精度(例えば、4ビット、3ビット)に定量化することができる。
ハードウェア側では、BitMoDはビットシリアル処理要素を使用して、複数の数値精度とデータタイプを容易にサポートしています。
第二に、グループ単位の部分和を最小限のハードウェアオーバーヘッドで再スケールするために、ビットシリアルデクエント化ユニットを採用する。
評価の結果,BitMoD は従来の LLM の量子化法と加速度法を著しく上回っていることがわかった。
識別タスクでは、BitMoD は LLM の重みを $<\!
0.5 % の精度低下率を示した。
生成タスクでは、BitMoD は LLM の重量を 3bit に量子化できるが、従来の LLM の量子化方式よりも複雑な処理を実現することができる。
優れたモデル性能と効率的な加速器設計を組み合わせることで、BitMoDは従来のLLMアクセラレータであるANTとOliVeと比較して平均1.69\times$と1.48\times$のスピードアップを達成している。
関連論文リスト
- ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。
5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。
5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文 参考訳(メタデータ) (2024-06-10T02:47:55Z) - I-LLM: Efficient Integer-Only Inference for Fully-Quantized Low-Bit Large Language Models [20.070306492164427]
学習後の量子化は、大きな言語モデルの推論を加速する強力な技術として機能する。
既存の作業は、推論中にかなりの数の浮動小数点(FP)操作を必要とする。
この制限は、エッジとクラウドデバイス上の大きな言語モデルのデプロイを妨げる。
大規模言語モデルに適した整数のみの完全量子化PTQフレームワークであるI-LLMを提案する。
論文 参考訳(メタデータ) (2024-05-28T05:56:11Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits [129.6765656933016]
我々は1ビットのLarge Language Models (LLMs) 、すなわちBitNet b1.58を導入する。
1.58ビット LLM は、新しい世代の LLM を訓練するための新しいスケーリング法則とレシピを定義している。
これは新しいパラダイムを可能にし、1ビットLLM向けに最適化された特定のハードウェアを設計するための扉を開く。
論文 参考訳(メタデータ) (2024-02-27T18:56:19Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models [14.929695160346276]
大規模言語モデル(LLM)は優れた性能を示すが、計算とメモリ集約性がある。
SmoothQuant, トレーニング不要, 精度保存, 汎用的なポストトレーニング量子化ソリューションを提案する。
最大1.56倍の高速化と2倍のメモリ削減を実現した。
論文 参考訳(メタデータ) (2022-11-18T18:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。