論文の概要: EXAQ: Exponent Aware Quantization For LLMs Acceleration
- arxiv url: http://arxiv.org/abs/2410.03185v1
- Date: Fri, 4 Oct 2024 06:54:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 03:14:31.049646
- Title: EXAQ: Exponent Aware Quantization For LLMs Acceleration
- Title(参考訳): EXAQ: LLMの高速化のための指数的アウェア量子化
- Authors: Moran Shkolnik, Maxim Fishman, Brian Chmiel, Hilla Ben-Yaacov, Ron Banner, Kfir Yehuda Levy,
- Abstract要約: ソフトマックス関数への入力に対して最適なクリッピング値を決定するための解析的手法を提案する。
この方法は$ex$と$sum(ex)$の両方の計算を最小限の精度で高速化する。
この超低ビット量子化は、蓄積相において初めて約4倍の加速を可能にする。
- 参考スコア(独自算出の注目度): 15.610222058802005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization has established itself as the primary approach for decreasing the computational and storage expenses associated with Large Language Models (LLMs) inference. The majority of current research emphasizes quantizing weights and activations to enable low-bit general-matrix-multiply (GEMM) operations, with the remaining non-linear operations executed at higher precision. In our study, we discovered that following the application of these techniques, the primary bottleneck in LLMs inference lies in the softmax layer. The softmax operation comprises three phases: exponent calculation, accumulation, and normalization, Our work focuses on optimizing the first two phases. We propose an analytical approach to determine the optimal clipping value for the input to the softmax function, enabling sub-4-bit quantization for LLMs inference. This method accelerates the calculations of both $e^x$ and $\sum(e^x)$ with minimal to no accuracy degradation. For example, in LLaMA1-30B, we achieve baseline performance with 2-bit quantization on the well-known "Physical Interaction: Question Answering" (PIQA) dataset evaluation. This ultra-low bit quantization allows, for the first time, an acceleration of approximately 4x in the accumulation phase. The combination of accelerating both $e^x$ and $\sum(e^x)$ results in a 36.9% acceleration in the softmax operation.
- Abstract(参考訳): 量子化は、LLM(Large Language Models)推論に関連する計算と記憶のコストを削減するための主要なアプローチとして確立されている。
現在の研究の大半は、重みとアクティベーションの定量化に重点を置いており、低ビットの汎用行列多重演算(GEMM)が可能であり、残りの非線形演算は高い精度で実行される。
本研究では, これらの手法の適用により, LLMの推論における主要なボトルネックがソフトマックス層にあることを発見した。
ソフトマックス演算は, 指数計算, 累積, 正規化の3段階からなる。
ソフトマックス関数への入力に対して最適なクリッピング値を決定するための解析的手法を提案する。
この方法では、$e^x$と$\sum(e^x)$の両方の計算を最小限の精度で高速化する。
例えば、LLaMA1-30Bでは、よく知られた"Physical Interaction: Question Answering"(PIQA)データセット評価に基づいて、2ビット量子化を行い、ベースライン性能を実現する。
この超低ビット量子化は、蓄積相において初めて約4倍の加速を可能にする。
e^x$と$\sum(e^x)$の両方を加速させることで、ソフトマックス演算の36.9%の加速が得られる。
関連論文リスト
- SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration [22.551095978580147]
SageAttention2を提案する。これは精度向上とともに,より高速な4ビット行列乗算(Matmul)を実現する。
時間ステップと層間の量子化精度を解析し、エンドツーエンドのメトリクスを保証するための適応量子化手法を提案する。
実験により、我々のアプローチは様々なモデルにまたがって無視できるエンドツーエンドのメトリクス損失を引き起こすことを確認した。
論文 参考訳(メタデータ) (2024-11-17T04:35:49Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。
提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。
推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - I-LLM: Efficient Integer-Only Inference for Fully-Quantized Low-Bit Large Language Models [20.070306492164427]
学習後の量子化は、大きな言語モデルの推論を加速する強力な技術として機能する。
既存の作業は、推論中にかなりの数の浮動小数点(FP)操作を必要とする。
この制限は、エッジとクラウドデバイス上の大きな言語モデルのデプロイを妨げる。
大規模言語モデルに適した整数のみの完全量子化PTQフレームワークであるI-LLMを提案する。
論文 参考訳(メタデータ) (2024-05-28T05:56:11Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - FlattenQuant: Breaking Through the Inference Compute-bound for Large
Language Models with Per-tensor Quantization [6.931020818874328]
テンソル内の大きなチャネルを平らにすることでテンソルの最大値を大幅に低減し、最小の精度でテンソル当たりの量子化を実現するFlattenQuantという手法を提案する。
我々の研究は2$times$ speedupと2.3$times$ memory reduction for LLMs with negligible loss in accuracyを達成している。
論文 参考訳(メタデータ) (2024-02-28T02:00:34Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - Local Convergence of Approximate Newton Method for Two Layer Nonlinear
Regression [21.849997443967705]
2層回帰問題は先行研究でよく研究されている。
第1の層はReLUユニットで活性化され、第2の層はソフトマックスユニットで活性化される。
ヘッセン行列の損失関数は正定値であり、ある仮定の下でリプシッツが連続であることを証明する。
論文 参考訳(メタデータ) (2023-11-26T19:19:02Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM [6.85331857224501]
LLM(Large Language Models)は、メモリ要件と計算能力に関する重要なハードウェア上の課題を提起する。
LLMには2つの主要な量子化スキームがある: 粗粒(textite.g.$ channel-wise)量子化と細粒(textite.g.$ group-wise)量子化である。
我々は、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。
論文 参考訳(メタデータ) (2023-10-07T14:50:28Z) - Multipoint-BAX: A New Approach for Efficiently Tuning Particle
Accelerator Emittance via Virtual Objectives [47.52324722637079]
マルチポイントクエリにおけるブラックボックス最適化のための情報理論アルゴリズムであるMultipoint-BAXを提案する。
我々はマルチポイントBAXを用いてLinac Coherent Light Source(LCLS)とAdvanced Accelerator Experimental Tests II(FACET-II)の発光を最小化する。
論文 参考訳(メタデータ) (2022-09-10T04:01:23Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。