論文の概要: LUT Tensor Core: A Software-Hardware Co-Design for LUT-Based Low-Bit LLM Inference
- arxiv url: http://arxiv.org/abs/2408.06003v2
- Date: Fri, 09 May 2025 18:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.646492
- Title: LUT Tensor Core: A Software-Hardware Co-Design for LUT-Based Low-Bit LLM Inference
- Title(参考訳): LUT Tensor Core: LUTベースの低ビットLLM推論のためのソフトウェアハードウェアの共同設計
- Authors: Zhiwen Mo, Lei Wang, Jianyu Wei, Zhichen Zeng, Shijie Cao, Lingxiao Ma, Naifeng Jing, Ting Cao, Jilong Xue, Fan Yang, Mao Yang,
- Abstract要約: 混合精度の一般行列乗算は批判的だが未探索の演算である。
現在のハードウェアはmpGEMMをネイティブにサポートしていないため、非効率なdequantizationベースの実装につながっている。
低ビットLLM推論に最適化されたソフトウェアとハードウェアの共同設計ソリューションであるLUT Coreを提案する。
- 参考スコア(独自算出の注目度): 10.608817382813786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language model (LLM) inference continues to demand increasing computational resources, there is a rapidly growing trend toward using low-bit weights to reduce memory footprint and improve inference efficiency. However, low-bit LLMs introduce the need for mixed-precision general matrix multiplication (mpGEMM), which involves multiplying low-precision weights with higher-precision activations - a critical yet under-explored operation. Current hardware lacks native support for mpGEMM, leading to inefficient dequantization-based implementations. To address this, we explore a lookup table (LUT)-based approach to accelerate mpGEMM. While conventional LUT implementations fall short in performance and flexibility, we propose LUT Tensor Core, a software-hardware co-designed solution optimized for low-bit LLM inference. On the software side, we introduce operator fusion and table symmetrization techniques to optimize LUT generation and storage. On the hardware side, LUT Tensor Core adopts an elongated tiling shape to maximize table reuse and employs a bit-serial architecture to flexibly support a variety of precision combinations. Additionally, we design an end-to-end compilation stack with custom instructions to enable efficient code generation and optimization for LUT-based mpGEMM. Experimental results on low-bit LLMs such as BitNet and LLaMA demonstrate that LUT Tensor Core delivers over an order-of-magnitude improvement in both compute density and energy efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)推論は計算資源の増大を要求され続けているため、メモリフットプリントの削減と推論効率の向上のために低ビット重みを使用する傾向が急速に高まっている。
しかし、低ビット LLM では、より高精度なアクティベーションと低精度の重みを乗算する混合精度一般行列乗法 (mpGEMM) の必要性が指摘されている。
現在のハードウェアはmpGEMMをネイティブにサポートしていないため、非効率なdequantizationベースの実装につながっている。
そこで我々は,mpGEMM を高速化するルックアップテーブル (LUT) ベースのアプローチを提案する。
従来のLUT実装は性能と柔軟性に欠けるが,低ビットLLM推論に最適化されたソフトウェアハードウェアの共同設計ソリューションであるLUT Tensor Coreを提案する。
ソフトウェア側では、LUT生成と記憶を最適化する演算子融合とテーブル対称性技術を導入する。
ハードウェア面では、LUT Tensor Coreはテーブルの再利用を最大化するために長いタイリング形状を採用し、様々な精度の組み合わせを柔軟にサポートするためにビットシリアルアーキテクチャを採用している。
さらに、LUTベースのmpGEMMの効率的なコード生成と最適化を可能にするために、カスタム命令によるエンドツーエンドコンパイルスタックを設計する。
BitNet や LLaMA などの低ビット LLM の実験結果から,LUT Tensor Core は計算密度とエネルギー効率の両面で高次改善を実現していることがわかった。
関連論文リスト
- Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - Tackling the Dynamicity in a Production LLM Serving System with SOTA Optimizations via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels [12.77187564450236]
本稿では,多機能なAscendネイティブ,エンドツーエンド生産型大規模言語モデル(LLM)サービスシステムであるXY-Serveを紹介する。
中心となる考え方は、計算をきめ細かいメタプリミティブに分解することで、ワークロードの変動を円滑にする抽象化メカニズムである。
GEMMでは,動的形状変化に適応する仮想パディング方式を導入し,高効率な固定タイルサイズGEMMプリミティブを用いた。
論文 参考訳(メタデータ) (2024-12-24T02:27:44Z) - Highly Optimized Kernels and Fine-Grained Codebooks for LLM Inference on Arm CPUs [0.8217552831952]
大きな言語モデル(LLM)は、言語理解と生成に関する考え方を変えました。
LLM量子化によく使われるグループ量子化形式は、計算上のオーバーヘッドとリソース集約型量子化プロセスを持つ。
本稿では,LLMの超低精度量子化のためのグループワイド非一様符号ブックに基づく量子化手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T03:44:29Z) - MixPE: Quantization and Hardware Co-design for Efficient LLM Inference [16.42907854119748]
MixPEは、大規模言語モデルにおける効率的な低ビット量子化のために設計された、特殊な混合精度処理素子である。
我々は、MixPEが最先端の量子化アクセラレータを2.6倍のスピードアップと1.4倍のエネルギー削減で超えることを示した。
論文 参考訳(メタデータ) (2024-11-25T07:34:53Z) - Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - Designing Efficient LLM Accelerators for Edge Devices [1.4128048241287314]
大きな言語モデル(LLM)は、リソース制約のあるエッジデバイスにデプロイすることで、ネットワーク接続への依存を低減し、よりプライバシーを提供する。
この問題に対処するため、LLM推論のための新しい効率的なエッジアクセラレータを設計することが重要である。
本稿では,効率的なFPGAベースのLCMアクセラレータの設計,統合,展開プロセスの合理化にSECDA手法を用いるSECDA-LLMを提案する。
論文 参考訳(メタデータ) (2024-08-01T11:06:05Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge [11.305778938818937]
本稿では, CPU 上での低ビット LLM (ウェイト量子化 LLM) 推論を効率的に行う革新的なルックアップテーブル T-MAC を提案する。
T-MACは不等化せずにmpGEMMを直接サポートし、同時に乗算を排除し、必要な加算を減らす。
低ビットLlamaモデルとBitNetモデルで評価したところ、T-MACはスループットを最大4倍に向上し、エネルギー消費を70%削減した。
論文 参考訳(メタデータ) (2024-06-25T08:38:38Z) - EDGE-LLM: Enabling Efficient Large Language Model Adaptation on Edge Devices via Layerwise Unified Compression and Adaptive Layer Tuning and Voting [12.006890185810322]
本稿では,エッジデバイス上での安価かつ効率的なLLM適応を実現するために,Edge-LLMと呼ばれる計算およびメモリ効率の高いLLMチューニングフレームワークを提案する。
具体的には,レイヤワイド統一圧縮(LUC)技術を用いて,レイヤワイドプルーニング空間と量子化ビット幅ポリシを生成して計算オーバーヘッドを削減する,(2)バックプロパゲーション深さを減らしてメモリオーバーヘッドを削減する適応層チューニングと投票方式,(3)LUCが導入した不規則な計算パターンと適応層チューニングを補完するハードウェアスケジューリング戦略,の3つのコアコンポーネントを特徴とする。
論文 参考訳(メタデータ) (2024-06-22T06:51:47Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。
LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。
我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文 参考訳(メタデータ) (2022-06-20T03:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。