論文の概要: OPAL: Outlier-Preserved Microscaling Quantization A ccelerator for Generative Large Language Models
- arxiv url: http://arxiv.org/abs/2409.05902v1
- Date: Fri, 6 Sep 2024 02:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 22:10:02.856675
- Title: OPAL: Outlier-Preserved Microscaling Quantization A ccelerator for Generative Large Language Models
- Title(参考訳): OPAL: 生成型大規模言語モデルのための外部保存型マイクロスケーリング量子化加速器
- Authors: Jahyun Koo, Dahoon Park, Sangwoo Jung, Jaeha Kung,
- Abstract要約: 本稿では, OPAL と呼ばれるエネルギー効率の高い LLM アクセラレータを生成タスクに適用するハードウェア・ソフトウェア共同設計手法を提案する。
OPALは、電力効率を最大化するためにシフトと減算のみを必要とするソフトマックス演算にlog2ベースの近似を使用する。
その結果、エネルギー効率を 1.62.2x に改善し、面積を 2.43.1x に減らし、精度を損なうことができる。
- 参考スコア(独自算出の注目度): 0.562479170374811
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To overcome the burden on the memory size and bandwidth due to ever-increasing size of large language models (LLMs), aggressive weight quantization has been recently studied, while lacking research on quantizing activations. In this paper, we present a hardware-software co-design method that results in an energy-efficient LLM accelerator, named OPAL, for generation tasks. First of all, a novel activation quantization method that leverages the microscaling data format while preserving several outliers per sub-tensor block (e.g., four out of 128 elements) is proposed. Second, on top of preserving outliers, mixed precision is utilized that sets 5-bit for inputs to sensitive layers in the decoder block of an LLM, while keeping inputs to less sensitive layers to 3-bit. Finally, we present the OPAL hardware architecture that consists of FP units for handling outliers and vectorized INT multipliers for dominant non-outlier related operations. In addition, OPAL uses log2-based approximation on softmax operations that only requires shift and subtraction to maximize power efficiency. As a result, we are able to improve the energy efficiency by 1.6~2.2x, and reduce the area by 2.4~3.1x with negligible accuracy loss, i.e., <1 perplexity increase.
- Abstract(参考訳): 大規模言語モデル(LLM)の長期化によるメモリサイズと帯域幅の負担を克服するため,アクティベーションの定量化に関する研究が欠如している。
本稿では, OPAL と呼ばれるエネルギー効率の高い LLM アクセラレータを生成タスクに適用するハードウェア・ソフトウェア共同設計手法を提案する。
まず,マイクロスケーリングデータ形式を利用したアクティベーション量子化手法を提案する。
第二に、出力を3ビットに抑えつつ、LCMのデコーダブロック内の機密層への入力を5ビットに設定する混合精度を利用する。
最後に、外乱処理のためのFPユニットと、支配的な非外乱処理のためのベクトル化INT乗算器からなるOPALハードウェアアーキテクチャを提案する。
さらにOPALは、電力効率を最大化するためにシフトと減算のみを必要とするソフトマックス演算にlog2ベースの近似を使用する。
その結果、エネルギー効率を1.6~2.2x向上させ、その面積を2.4~3.1x削減できる。
関連論文リスト
- MixPE: Quantization and Hardware Co-design for Efficient LLM Inference [16.42907854119748]
MixPEは、大規模言語モデルにおける効率的な低ビット量子化のために設計された、特殊な混合精度処理素子である。
我々は、MixPEが最先端の量子化アクセラレータを2.6倍のスピードアップと1.4倍のエネルギー削減で超えることを示した。
論文 参考訳(メタデータ) (2024-11-25T07:34:53Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - GPTQT: Quantize Large Language Models Twice to Push the Efficiency [1.3149617027696827]
本稿では,学習後量子化手法であるGPTQTを導入し,メモリ使用量の削減と処理速度の向上を図る。
重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。
GPTQTは、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。
論文 参考訳(メタデータ) (2024-07-03T08:08:01Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - TernaryLLM: Ternarized Large Language Model [29.29122031050894]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成した。
本稿では、Dual Learnable Ternarization (DLT)を導入し、スケールとシフトの両方を学習可能にする。
また、極低ビット量子化で失われた情報を復元するために、OFF(Outlier-Friendly Feature Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2024-06-11T11:40:12Z) - I-LLM: Efficient Integer-Only Inference for Fully-Quantized Low-Bit Large Language Models [20.070306492164427]
学習後の量子化は、大きな言語モデルの推論を加速する強力な技術として機能する。
既存の作業は、推論中にかなりの数の浮動小数点(FP)操作を必要とする。
この制限は、エッジとクラウドデバイス上の大きな言語モデルのデプロイを妨げる。
大規模言語モデルに適した整数のみの完全量子化PTQフレームワークであるI-LLMを提案する。
論文 参考訳(メタデータ) (2024-05-28T05:56:11Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models [57.933500846742234]
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
論文 参考訳(メタデータ) (2022-09-27T12:05:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。