Fugu-MT 論文翻訳(概要): LUT Tensor Core: A Software-Hardware Co-Design for LUT-Based Low-Bit LLM Inference

論文の概要: LUT Tensor Core: A Software-Hardware Co-Design for LUT-Based Low-Bit LLM Inference

arxiv url: http://arxiv.org/abs/2408.06003v2
Date: Fri, 09 May 2025 18:23:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:48.646492
Title: LUT Tensor Core: A Software-Hardware Co-Design for LUT-Based Low-Bit LLM Inference
Title（参考訳）: LUT Tensor Core: LUTベースの低ビットLLM推論のためのソフトウェアハードウェアの共同設計
Authors: Zhiwen Mo, Lei Wang, Jianyu Wei, Zhichen Zeng, Shijie Cao, Lingxiao Ma, Naifeng Jing, Ting Cao, Jilong Xue, Fan Yang, Mao Yang,
Abstract要約: 混合精度の一般行列乗算は批判的だが未探索の演算である。現在のハードウェアはmpGEMMをネイティブにサポートしていないため、非効率なdequantizationベースの実装につながっている。低ビットLLM推論に最適化されたソフトウェアとハードウェアの共同設計ソリューションであるLUT Coreを提案する。
参考スコア（独自算出の注目度）: 10.608817382813786
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language model (LLM) inference continues to demand increasing computational resources, there is a rapidly growing trend toward using low-bit weights to reduce memory footprint and improve inference efficiency. However, low-bit LLMs introduce the need for mixed-precision general matrix multiplication (mpGEMM), which involves multiplying low-precision weights with higher-precision activations - a critical yet under-explored operation. Current hardware lacks native support for mpGEMM, leading to inefficient dequantization-based implementations. To address this, we explore a lookup table (LUT)-based approach to accelerate mpGEMM. While conventional LUT implementations fall short in performance and flexibility, we propose LUT Tensor Core, a software-hardware co-designed solution optimized for low-bit LLM inference. On the software side, we introduce operator fusion and table symmetrization techniques to optimize LUT generation and storage. On the hardware side, LUT Tensor Core adopts an elongated tiling shape to maximize table reuse and employs a bit-serial architecture to flexibly support a variety of precision combinations. Additionally, we design an end-to-end compilation stack with custom instructions to enable efficient code generation and optimization for LUT-based mpGEMM. Experimental results on low-bit LLMs such as BitNet and LLaMA demonstrate that LUT Tensor Core delivers over an order-of-magnitude improvement in both compute density and energy efficiency.
Abstract（参考訳）: 大規模言語モデル(LLM)推論は計算資源の増大を要求され続けているため、メモリフットプリントの削減と推論効率の向上のために低ビット重みを使用する傾向が急速に高まっている。しかし、低ビット LLM では、より高精度なアクティベーションと低精度の重みを乗算する混合精度一般行列乗法 (mpGEMM) の必要性が指摘されている。現在のハードウェアはmpGEMMをネイティブにサポートしていないため、非効率なdequantizationベースの実装につながっている。そこで我々は,mpGEMM を高速化するルックアップテーブル (LUT) ベースのアプローチを提案する。従来のLUT実装は性能と柔軟性に欠けるが,低ビットLLM推論に最適化されたソフトウェアハードウェアの共同設計ソリューションであるLUT Tensor Coreを提案する。ソフトウェア側では、LUT生成と記憶を最適化する演算子融合とテーブル対称性技術を導入する。ハードウェア面では、LUT Tensor Coreはテーブルの再利用を最大化するために長いタイリング形状を採用し、様々な精度の組み合わせを柔軟にサポートするためにビットシリアルアーキテクチャを採用している。さらに、LUTベースのmpGEMMの効率的なコード生成と最適化を可能にするために、カスタム命令によるエンドツーエンドコンパイルスタックを設計する。 BitNet や LLaMA などの低ビット LLM の実験結果から,LUT Tensor Core は計算密度とエネルギー効率の両面で高次改善を実現していることがわかった。

関連論文リスト

Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文参考訳（メタデータ） (2025-10-23T20:19:48Z)
PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。 PT$2$-LLMを提案する。その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文参考訳（メタデータ） (2025-09-27T03:01:48Z)
Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文参考訳（メタデータ） (2025-04-15T16:00:21Z)
NeuraLUT-Assemble: Hardware-aware Assembling of Sub-Neural Networks for Efficient LUT Inference [2.7086888205833968]
ルックアップテーブル(LUT)を活用したNN(Efficient Neural Network)は、新興AIアプリケーションにおいて大きな可能性を示している。既存のLUTベースの設計では、入力幅のLUTリソースの指数的スケーリングによって制限されたニューロンが要求するファンインが大きいため、精度が低下する。我々は、これらの制限に対処する新しいフレームワークであるNeuraLUT-Assembleを紹介する。
論文参考訳（メタデータ） (2025-04-01T09:52:38Z)
SparseLUT: Sparse Connectivity Optimization for Lookup Table-based Deep Neural Networks [0.0]
本稿では,LUTベースのディープニューラルネットワーク(DNN)に適した接続中心トレーニング技術であるSparseLUTを紹介する。実験の結果、ベンチマーク全体で一貫した精度の改善が見られ、MNISTは最大2.13%向上した。これはハードウェアのオーバーヘッドを伴わずに実現され、LUTベースのDNNの最先端の結果が得られる。
論文参考訳（メタデータ） (2025-03-17T05:21:54Z)
Tackling the Dynamicity in a Production LLM Serving System with SOTA Optimizations via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels [12.77187564450236]
本稿では,多機能なAscendネイティブ,エンドツーエンド生産型大規模言語モデル(LLM)サービスシステムであるXY-Serveを紹介する。中心となる考え方は、計算をきめ細かいメタプリミティブに分解することで、ワークロードの変動を円滑にする抽象化メカニズムである。 GEMMでは,動的形状変化に適応する仮想パディング方式を導入し,高効率な固定タイルサイズGEMMプリミティブを用いた。
論文参考訳（メタデータ） (2024-12-24T02:27:44Z)
Highly Optimized Kernels and Fine-Grained Codebooks for LLM Inference on Arm CPUs [0.8217552831952]
大きな言語モデル(LLM)は、言語理解と生成に関する考え方を変えました。 LLM量子化によく使われるグループ量子化形式は、計算上のオーバーヘッドとリソース集約型量子化プロセスを持つ。本稿では,LLMの超低精度量子化のためのグループワイド非一様符号ブックに基づく量子化手法を提案する。
論文参考訳（メタデータ） (2024-12-23T03:44:29Z)
MixPE: Quantization and Hardware Co-design for Efficient LLM Inference [16.42907854119748]
MixPEは、大規模言語モデルにおける効率的な低ビット量子化のために設計された、特殊な混合精度処理素子である。我々は、MixPEが最先端の量子化アクセラレータを2.6倍のスピードアップと1.4倍のエネルギー削減で超えることを示した。
論文参考訳（メタデータ） (2024-11-25T07:34:53Z)
Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文参考訳（メタデータ） (2024-11-04T04:58:20Z)
EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。 EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文参考訳（メタデータ） (2024-10-28T17:59:03Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)
Designing Efficient LLM Accelerators for Edge Devices [1.4128048241287314]
大きな言語モデル(LLM)は、リソース制約のあるエッジデバイスにデプロイすることで、ネットワーク接続への依存を低減し、よりプライバシーを提供する。この問題に対処するため、LLM推論のための新しい効率的なエッジアクセラレータを設計することが重要である。本稿では,効率的なFPGAベースのLCMアクセラレータの設計,統合,展開プロセスの合理化にSECDA手法を用いるSECDA-LLMを提案する。
論文参考訳（メタデータ） (2024-08-01T11:06:05Z)
Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文参考訳（メタデータ） (2024-07-15T17:55:42Z)
T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge [11.305778938818937]
本稿では, CPU 上での低ビット LLM (ウェイト量子化 LLM) 推論を効率的に行う革新的なルックアップテーブル T-MAC を提案する。 T-MACは不等化せずにmpGEMMを直接サポートし、同時に乗算を排除し、必要な加算を減らす。低ビットLlamaモデルとBitNetモデルで評価したところ、T-MACはスループットを最大4倍に向上し、エネルギー消費を70%削減した。
論文参考訳（メタデータ） (2024-06-25T08:38:38Z)
EDGE-LLM: Enabling Efficient Large Language Model Adaptation on Edge Devices via Layerwise Unified Compression and Adaptive Layer Tuning and Voting [12.006890185810322]
本稿では,エッジデバイス上での安価かつ効率的なLLM適応を実現するために,Edge-LLMと呼ばれる計算およびメモリ効率の高いLLMチューニングフレームワークを提案する。具体的には,レイヤワイド統一圧縮(LUC)技術を用いて,レイヤワイドプルーニング空間と量子化ビット幅ポリシを生成して計算オーバーヘッドを削減する,(2)バックプロパゲーション深さを減らしてメモリオーバーヘッドを削減する適応層チューニングと投票方式,(3)LUCが導入した不規則な計算パターンと適応層チューニングを補完するハードウェアスケジューリング戦略,の3つのコアコンポーネントを特徴とする。
論文参考訳（メタデータ） (2024-06-22T06:51:47Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文参考訳（メタデータ） (2024-02-18T14:08:48Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
Sparse Universal Transformer [64.78045820484299]
Universal Transformer (UT) はTransformerの変種であり、それらの層にまたがるパラメータを共有する。本稿では,スパース・ミキチャー・オブ・エキスパート(SMoE)と新しいスティック・ブレーキング・ベースの動的停止機構を利用するスパース・ユニバーサル・トランスフォーマー(SUT)を提案する。
論文参考訳（メタデータ） (2023-10-11T00:38:57Z)
LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。 LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文参考訳（メタデータ） (2022-06-20T03:48:17Z)
Logic Shrinkage: Learned FPGA Netlist Sparsity for Efficient Neural Network Inference [3.2296078260106174]
本稿では,LUTに基づくトポロジの学習最適化を提案する。既存のアーキテクチャの実装では、LUT, Kあたりの入力数を手動で指定する必要がある。本稿では,FPGA推論を対象とするニューラルネットワークにおいて,各LUTに対してKを自動的に学習することのできる,詳細なネットリスト解析手法である論理縮小手法を提案する。
論文参考訳（メタデータ） (2021-12-04T14:23:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。