Fugu-MT 論文翻訳(概要): LUT Tensor Core: Lookup Table Enables Efficient Low-Bit LLM Inference Acceleration

論文の概要: LUT Tensor Core: Lookup Table Enables Efficient Low-Bit LLM Inference Acceleration

arxiv url: http://arxiv.org/abs/2408.06003v1
Date: Mon, 12 Aug 2024 08:52:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-13 14:35:18.931316
Title: LUT Tensor Core: Lookup Table Enables Efficient Low-Bit LLM Inference Acceleration
Title（参考訳）: LUT Tensor Core: 効率的な低ビットLDM推論高速化を実現するルックアップテーブル
Authors: Zhiwen Mo, Lei Wang, Jianyu Wei, Zhichen Zeng, Shijie Cao, Lingxiao Ma, Naifeng Jing, Ting Cao, Jilong Xue, Fan Yang, Mao Yang,
Abstract要約: 混合精度行列乗算(英: Mixed-precision matrix multiplication, mpGEMM)は、より高精度な活性化を伴う低精度重みを乗算する重要な演算である。現在のハードウェアはmpGEMMをサポートしておらず、間接的かつ非効率な復号化ベースの実装をもたらす。低ビットLLM推論に最適化されたハードウェアの共同設計であるLUT Coreを紹介する。
参考スコア（独自算出の注目度）: 10.608817382813786
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language model (LLM) inference demands ever-greater resources, there is a rapid growing trend of using low-bit weights to shrink memory usage and boost inference efficiency. However, these low-bit LLMs introduce the need for mixed-precision matrix multiplication (mpGEMM), which is a crucial yet under-explored operation that involves multiplying lower-precision weights with higher-precision activations. Unfortunately, current hardware does not natively support mpGEMM, resulting in indirect and inefficient dequantization-based implementations. To address the mpGEMM requirements in low-bit LLMs, we explored the lookup table (LUT)-based approach for mpGEMM. However, a conventional LUT implementation falls short of its potential. To fully harness the power of LUT-based mpGEMM, we introduce LUT Tensor Core, a software-hardware co-design optimized for low-bit LLM inference. Specifically, we introduce software-based operator fusion and table symmetrization techniques to optimize table precompute and table storage, respectively. Then, LUT Tensor Core proposes the hardware design featuring an elongated tiling shape design to enhance table reuse and a bit-serial design to support various precision combinations in mpGEMM. Moreover, we design an end-to-end compilation stack with new instructions for LUT-based mpGEMM, enabling efficient LLM compilation and optimizations. The evaluation on low-bit LLMs (e.g., BitNet, LLAMA) shows that LUT Tensor Core achieves more than a magnitude of improvements on both compute density and energy efficiency.
Abstract（参考訳）: 大規模言語モデル (LLM) では, より優れたリソースが要求されるため, メモリ使用量を削減し, 推論効率を高めるために低ビット重みを使用する傾向が急速に高まっている。しかし、これらの低ビット LLM は、より高精度な活性化を伴う低精度重みの乗算を含む決定的かつ未探索な演算である混合精度行列乗算 (mpGEMM) の必要性を導入している。残念なことに、現在のハードウェアはmpGEMMをネイティブにサポートしていない。低ビットLLMにおけるmpGEMM要求に対処するため、我々はmpGEMMのルックアップテーブル(LUT)に基づくアプローチを検討した。しかし、従来のLUT実装はその可能性を欠いている。 LUTベースのmpGEMMのパワーをフル活用するために、低ビットLLM推論に最適化されたソフトウェアハードウェアの共同設計であるLUT Tensor Coreを導入する。具体的には,ソフトウェアベースの演算子融合とテーブル対称性を導入し,テーブル前処理とテーブル記憶を最適化する。そこで, LUT Tensor Core は, テーブルの再利用性を高めるため, 拡張型タイリング形状設計と, mpGEMM の様々な精度の組み合わせをサポートするためのビットシリアル設計を特徴とするハードウェア設計を提案する。さらに,LUTベースのmpGEMMのための新しい命令を用いたエンドツーエンドコンパイルスタックを設計し,効率的なLLMコンパイルと最適化を実現する。低ビットLLM(例: BitNet, LLAMA)の評価は、LUT Tensor Coreが計算密度とエネルギー効率の両方において最大以上の改善を達成していることを示している。

関連論文リスト

Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文参考訳（メタデータ） (2025-04-15T16:00:21Z)
NeuraLUT-Assemble: Hardware-aware Assembling of Sub-Neural Networks for Efficient LUT Inference [2.7086888205833968]
ルックアップテーブル(LUT)を活用したNN(Efficient Neural Network)は、新興AIアプリケーションにおいて大きな可能性を示している。既存のLUTベースの設計では、入力幅のLUTリソースの指数的スケーリングによって制限されたニューロンが要求するファンインが大きいため、精度が低下する。我々は、これらの制限に対処する新しいフレームワークであるNeuraLUT-Assembleを紹介する。
論文参考訳（メタデータ） (2025-04-01T09:52:38Z)
SparseLUT: Sparse Connectivity Optimization for Lookup Table-based Deep Neural Networks [0.0]
本稿では,LUTベースのディープニューラルネットワーク(DNN)に適した接続中心トレーニング技術であるSparseLUTを紹介する。実験の結果、ベンチマーク全体で一貫した精度の改善が見られ、MNISTは最大2.13%向上した。これはハードウェアのオーバーヘッドを伴わずに実現され、LUTベースのDNNの最先端の結果が得られる。
論文参考訳（メタデータ） (2025-03-17T05:21:54Z)
Tackling the Dynamicity in a Production LLM Serving System with SOTA Optimizations via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels [12.77187564450236]
本稿では,多機能なAscendネイティブ,エンドツーエンド生産型大規模言語モデル(LLM)サービスシステムであるXY-Serveを紹介する。中心となる考え方は、計算をきめ細かいメタプリミティブに分解することで、ワークロードの変動を円滑にする抽象化メカニズムである。 GEMMでは,動的形状変化に適応する仮想パディング方式を導入し,高効率な固定タイルサイズGEMMプリミティブを用いた。
論文参考訳（メタデータ） (2024-12-24T02:27:44Z)
Highly Optimized Kernels and Fine-Grained Codebooks for LLM Inference on Arm CPUs [0.8217552831952]
大きな言語モデル(LLM)は、言語理解と生成に関する考え方を変えました。 LLM量子化によく使われるグループ量子化形式は、計算上のオーバーヘッドとリソース集約型量子化プロセスを持つ。本稿では,LLMの超低精度量子化のためのグループワイド非一様符号ブックに基づく量子化手法を提案する。
論文参考訳（メタデータ） (2024-12-23T03:44:29Z)
MixPE: Quantization and Hardware Co-design for Efficient LLM Inference [16.42907854119748]
MixPEは、大規模言語モデルにおける効率的な低ビット量子化のために設計された、特殊な混合精度処理素子である。我々は、MixPEが最先端の量子化アクセラレータを2.6倍のスピードアップと1.4倍のエネルギー削減で超えることを示した。
論文参考訳（メタデータ） (2024-11-25T07:34:53Z)
Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文参考訳（メタデータ） (2024-11-04T04:58:20Z)
EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。 EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文参考訳（メタデータ） (2024-10-28T17:59:03Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)
Designing Efficient LLM Accelerators for Edge Devices [1.4128048241287314]
大きな言語モデル(LLM)は、リソース制約のあるエッジデバイスにデプロイすることで、ネットワーク接続への依存を低減し、よりプライバシーを提供する。この問題に対処するため、LLM推論のための新しい効率的なエッジアクセラレータを設計することが重要である。本稿では,効率的なFPGAベースのLCMアクセラレータの設計,統合,展開プロセスの合理化にSECDA手法を用いるSECDA-LLMを提案する。
論文参考訳（メタデータ） (2024-08-01T11:06:05Z)
Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文参考訳（メタデータ） (2024-07-15T17:55:42Z)
T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge [11.305778938818937]
本稿では, CPU 上での低ビット LLM (ウェイト量子化 LLM) 推論を効率的に行う革新的なルックアップテーブル T-MAC を提案する。 T-MACは不等化せずにmpGEMMを直接サポートし、同時に乗算を排除し、必要な加算を減らす。低ビットLlamaモデルとBitNetモデルで評価したところ、T-MACはスループットを最大4倍に向上し、エネルギー消費を70%削減した。
論文参考訳（メタデータ） (2024-06-25T08:38:38Z)
EDGE-LLM: Enabling Efficient Large Language Model Adaptation on Edge Devices via Layerwise Unified Compression and Adaptive Layer Tuning and Voting [12.006890185810322]
本稿では,エッジデバイス上での安価かつ効率的なLLM適応を実現するために,Edge-LLMと呼ばれる計算およびメモリ効率の高いLLMチューニングフレームワークを提案する。具体的には,レイヤワイド統一圧縮(LUC)技術を用いて,レイヤワイドプルーニング空間と量子化ビット幅ポリシを生成して計算オーバーヘッドを削減する,(2)バックプロパゲーション深さを減らしてメモリオーバーヘッドを削減する適応層チューニングと投票方式,(3)LUCが導入した不規則な計算パターンと適応層チューニングを補完するハードウェアスケジューリング戦略,の3つのコアコンポーネントを特徴とする。
論文参考訳（メタデータ） (2024-06-22T06:51:47Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文参考訳（メタデータ） (2024-02-18T14:08:48Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
Sparse Universal Transformer [64.78045820484299]
Universal Transformer (UT) はTransformerの変種であり、それらの層にまたがるパラメータを共有する。本稿では,スパース・ミキチャー・オブ・エキスパート(SMoE)と新しいスティック・ブレーキング・ベースの動的停止機構を利用するスパース・ユニバーサル・トランスフォーマー(SUT)を提案する。
論文参考訳（メタデータ） (2023-10-11T00:38:57Z)
LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。 LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文参考訳（メタデータ） (2022-06-20T03:48:17Z)
Logic Shrinkage: Learned FPGA Netlist Sparsity for Efficient Neural Network Inference [3.2296078260106174]
本稿では,LUTに基づくトポロジの学習最適化を提案する。既存のアーキテクチャの実装では、LUT, Kあたりの入力数を手動で指定する必要がある。本稿では,FPGA推論を対象とするニューラルネットワークにおいて,各LUTに対してKを自動的に学習することのできる,詳細なネットリスト解析手法である論理縮小手法を提案する。
論文参考訳（メタデータ） (2021-12-04T14:23:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。