論文の概要: ELUTQ: Efficient LUT-Aware Quantization for Deploying Large Language Models on Edge Devices
- arxiv url: http://arxiv.org/abs/2510.19482v1
- Date: Wed, 22 Oct 2025 11:20:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.734164
- Title: ELUTQ: Efficient LUT-Aware Quantization for Deploying Large Language Models on Edge Devices
- Title(参考訳): ELUTQ: エッジデバイスに大規模言語モデルをデプロイするための効率的なLUT-Aware量子化
- Authors: Xin Nie, Liang Dong, HaiCheng Zhang, JiaWang Xiao, G. Sun,
- Abstract要約: CPUベースのエッジデバイス上の大規模言語モデル(LLM)は、デバイス上のインテリジェンスの実現とAIアクセシビリティの拡大に不可欠である。
我々は,新しい量子化形式である階層線形量子化(HLQ)を導入した効率的な量子化フレームワークELUTQを提案する。
HLQは計算コストを増大させることなく、重量の統計特性をよりよく捉える。
LLaMA3-8Bの場合、HLQは3ビットで約8%、2ビット精度で約85%のパープレキシティを減少させる。
- 参考スコア(独自算出の注目度): 3.465218658690795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of Large Language Models (LLMs) on CPU-based edge devices is crucial for enabling on-device intelligence and expanding AI accessibility. However, it remains challenging due to limited memory and computational resources. During edge inference, memory usage and latency are the primary bottlenecks. Although weight quantization can effectively reduce memory consumption, existing hardware-friendly approaches often rely on uniform quantization, which poorly fits weight distributions and incurs high dequantization overhead at low bit widths. To address these limitations, we propose ELUTQ, an efficient quantization framework introducing a novel quantization format, Hierarchical Linear Quantization (HLQ). HLQ better captures the statistical characteristics of weights without increasing the computational cost of Bit-serial LUT-based GEMM operations, thereby eliminating dequantization overhead. It is orthogonal to existing quantization algorithms and can be seamlessly integrated into various quantization pipelines. For efficient on-device deployment, ELUTQ provides optimized CPU kernels for end-to-end inference. Experiments show that for LLaMA3-8B, HLQ reduces perplexity by about 8% at 3-bit and 85% at 2-bit precision under post-training quantization, completing quantization within one hour. With efficient finetuning, HLQ further improves 2-bit performance within two hours. In terms of inference efficiency, our 2-bit LLaMA2-7B achieves over 25 tokens/s on an Apple M2 chip (4 threads, batch size = 1).
- Abstract(参考訳): CPUベースのエッジデバイスへのLarge Language Models(LLM)のデプロイは、デバイス上のインテリジェンスの実現とAIアクセシビリティの拡大に不可欠である。
しかし、メモリと計算資源が限られているため、依然として困難である。
エッジ推論では、メモリ使用量とレイテンシが主なボトルネックである。
重み量子化はメモリ消費を効果的に削減できるが、既存のハードウェアフレンドリーなアプローチは、重量分布に不適合な均一な量子化に依存し、低ビット幅での重み量子化オーバーヘッドを生じさせる。
これらの制約に対処するため,新しい量子化形式である階層線形量子化(HLQ)を導入した効率的な量子化フレームワークELUTQを提案する。
HLQは、ビットシリアルLUTベースのGEMM演算の計算コストを増大させることなく、重みの統計特性をよりよく把握し、遅延化オーバーヘッドをなくす。
既存の量子化アルゴリズムと直交しており、様々な量子化パイプラインにシームレスに統合することができる。
デバイス上での効率的なデプロイメントのために、ELUTQはエンドツーエンドの推論のために最適化されたCPUカーネルを提供する。
LLaMA3-8Bの場合、HLQは3ビットで約8%、2ビットの精度で約85%減少し、1時間以内に量子化が完了する。
効率的な微調整により、HLQは2時間以内に2ビットパフォーマンスをさらに改善する。
推論効率の面では、2ビットのLLaMA2-7Bは、Apple M2チップ(4スレッド、バッチサイズ = 1)上で25以上のトークン/sを達成する。
関連論文リスト
- PoTPTQ: A Two-step Power-of-Two Post-training for LLMs [27.141872509108122]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示している。
パワーオブツー(PoT)量子化は、この困難に対処するための一般的なツールである。
本稿では,LLM重み付けのための新しいPOT量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-16T06:44:14Z) - ICQuant: Index Coding enables Low-bit LLM Quantization [12.066053172138057]
重み量子化の鍵となる課題は、量子化範囲を拡大し、大きなエラーを引き起こす外れ値の存在である。
ICQuantは、外れ値統計を利用して、外れ値認識量子化のための効率的なインデックス符号化方式を設計する新しいフレームワークである。
ICQuantは重量当たり2.3ビットと単純なスカラー量子化器を使用して、2ビットのLlama3-70Bモデルのゼロショット精度をQTIPとQuIP#と比較して最大130%改善する。
論文 参考訳(メタデータ) (2025-05-01T20:23:29Z) - ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models [9.444063879246242]
本稿では,新しい任意のビット量子化アルゴリズムと推論フレームワークであるABQ-LLMを紹介する。
様々な量子化設定において優れた性能を実現し、GPU上で効率的な任意の精度の量子化推論を可能にする。
論文 参考訳(メタデータ) (2024-08-16T06:39:08Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。