論文の概要: P3-LLM: An Integrated NPU-PIM Accelerator for LLM Inference Using Hybrid Numerical Formats
- arxiv url: http://arxiv.org/abs/2511.06838v2
- Date: Thu, 13 Nov 2025 01:14:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 14:36:36.953209
- Title: P3-LLM: An Integrated NPU-PIM Accelerator for LLM Inference Using Hybrid Numerical Formats
- Title(参考訳): P3-LLM:ハイブリッド数値フォーマットを用いたLPM推論のための統合NPU-PIM加速器
- Authors: Yuzong Chen, Chao Fang, Xilai Dai, Yuheng Wu, Thierry Tambe, Marian Verhelst, Mohamed S. Abdelfattah,
- Abstract要約: P3-LLMは、ハイブリッド数値形式を用いた推論のための新しい統合アクセラレータである。
P3-LLMはKV-cache量子化とウェイトアクティベーション量子化の両方の観点から最先端の精度を達成する。
- 参考スコア(独自算出の注目度): 10.43214279354138
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The substantial memory bandwidth and computational demands of large language models (LLMs) present critical challenges for efficient inference. To tackle this, the literature has explored heterogeneous systems that combine neural processing units (NPUs) with DRAM-based processing-in-memory (PIM) for LLM acceleration. However, existing high-precision (e.g., FP16) PIM compute units incur significant area and power overhead in DRAM technology, limiting the effective computation throughput. In this paper, we introduce P3-LLM, a novel NPU-PIM integrated accelerator for LLM inference using hybrid numerical formats. Our approach is threefold: First, we propose a flexible mixed-precision quantization scheme, which leverages hybrid numerical formats to quantize different LLM operands with high compression efficiency and minimal accuracy loss. Second, we architect an efficient PIM accelerator for P3-LLM, featuring enhanced compute units to support hybrid numerical formats. Our careful choice of numerical formats allows to co-design low-precision PIM compute units that significantly boost the computation throughput under iso-area constraints. Third, we optimize the low-precision dataflow of different LLM modules by applying operator fusion to minimize the overhead of runtime dequantization. Evaluation on a diverse set of representative LLMs and tasks demonstrates that P3-LLM achieves state-of-the-art accuracy in terms of both KV-cache quantization and weight-activation quantization. Combining the proposed quantization scheme with PIM architecture co-design, P3-LLM yields an average of $4.9\times$, $2.0\times$, and $3.4\times$ speedups over the state-of-the-art LLM accelerators HBM-PIM, Ecco, and Pimba, respectively. Our quantization code is available at https://github.com/yc2367/P3-LLM.git
- Abstract(参考訳): 大規模言語モデル(LLM)のかなりのメモリ帯域幅と計算要求は、効率的な推論にとって重要な課題である。
これを解決するために、論文では、ニューラルネットワークユニット(NPU)とDRAMベースの処理インメモリ(PIM)を組み合わせてLLM加速を行う異種システムについて検討している。
しかし、既存の高精度(例えばFP16)のPIM計算ユニットはDRAM技術においてかなりの面積と電力オーバーヘッドを発生させ、効率的な計算スループットを制限している。
本稿では,ハイブリッド数値形式を用いたLLM推論のための新しいNPU-PIM統合アクセラレータであるP3-LLMを紹介する。
まず、ハイブリッド数値形式を利用したフレキシブルな混合精度量子化方式を提案し、高い圧縮効率と最小精度の損失で異なるLLMオペランドを定量化する。
第二に、P3-LLMのための効率的なPIMアクセラレータを設計し、ハイブリッドな数値形式をサポートする計算ユニットを拡張した。
数値形式を慎重に選択することで、等距離制約下での計算スループットを大幅に向上させる低精度PIM計算ユニットを共同設計できる。
第3に,演算子融合を適用して,実行時減量化のオーバーヘッドを最小限に抑えることにより,異なるLLMモジュールの低精度データフローを最適化する。
P3-LLM は KV-cache 量子化とウェイトアクティベーション量子化の両面で最先端の精度を達成することを示す。
提案された量子化スキームとPIMアーキテクチャの共設計を組み合わせると、P3-LLMは平均$4.9\times$、$2.0\times$、$3.4\times$それぞれ最先端のLLMアクセラレータHBM-PIM、Ecco、Pimbaのスピードアップが得られる。
私たちの量子化コードはhttps://github.com/yc2367/P3-LLM.gitで利用可能です。
関連論文リスト
- LoL-PIM: Long-Context LLM Decoding with Scalable DRAM-PIM System [6.21613161960432]
大規模言語モデル(LLM)は数万のトークンのシーケンスを処理する。
Processing-in-Memory (PIM) は、計算をデータに移動させることでメモリ帯域幅を最大化する。
LoL-PIM はマルチノード PIM アーキテクチャであり、ハードウェアとソフトウェアの共同設計により長期のコンテキスト LLM を高速化する。
論文 参考訳(メタデータ) (2024-12-28T14:38:16Z) - Highly Optimized Kernels and Fine-Grained Codebooks for LLM Inference on Arm CPUs [0.8217552831952]
大きな言語モデル(LLM)は、言語理解と生成に関する考え方を変えました。
LLM量子化によく使われるグループ量子化形式は、計算上のオーバーヘッドとリソース集約型量子化プロセスを持つ。
本稿では,LLMの超低精度量子化のためのグループワイド非一様符号ブックに基づく量子化手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T03:44:29Z) - MixLLM: LLM Quantization with Global Mixed-precision between Output-features and Highly-efficient System Design [1.3589914205911104]
我々は,その精度,メモリ消費,システム効率の三角形に対する効果に関する一般量子化原理を包括的に分析する。
出力特徴間の混合精度量子化の新しい最適化空間を探索するMixLLMを提案する。
本稿では,アルゴリズム-システム共設計の量子化構成のスイートスポットについて述べる。
論文 参考訳(メタデータ) (2024-12-19T07:15:15Z) - MixPE: Quantization and Hardware Co-design for Efficient LLM Inference [16.42907854119748]
MixPEは、大規模言語モデルにおける効率的な低ビット量子化のために設計された、特殊な混合精度処理素子である。
我々は、MixPEが最先端の量子化アクセラレータを2.6倍のスピードアップと1.4倍のエネルギー削減で超えることを示した。
論文 参考訳(メタデータ) (2024-11-25T07:34:53Z) - Anda: Unlocking Efficient LLM Inference with a Variable-Length Grouped Activation Data Format [5.527166214435735]
量子化大言語モデル(LLM)は低ビット整数(INT)重みを利用し、浮動小数点(FP)アクティベーションを保持する。
これにより、コストのかかるメモリアクセスと計算に関連するFPアクティベーションに、エネルギとレイテンシのボトルネックがシフトする。
既存のLCMアクセラレータは、FP計算とデータ移動を協調的に最適化する可能性を見越して、計算最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-11-24T20:59:39Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。