論文の概要: Vec-LUT: Vector Table Lookup for Parallel Ultra-Low-Bit LLM Inference on Edge Devices
- arxiv url: http://arxiv.org/abs/2512.06443v1
- Date: Sat, 06 Dec 2025 14:14:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.363742
- Title: Vec-LUT: Vector Table Lookup for Parallel Ultra-Low-Bit LLM Inference on Edge Devices
- Title(参考訳): Vec-LUT:エッジデバイス上での並列超低ビットLLM推論のためのベクトルテーブル検索
- Authors: Xiangyu Li, Chengyu Yin, Weijun Wang, Jianyu Wei, Ting Cao, Yunxin Liu,
- Abstract要約: 大規模言語モデル(LLM)はますますエッジデバイスにデプロイされている。
LUTベースの推論は、並列推論中にメモリ帯域幅を弱める。
Vec-LUTはベースラインを最大4.2倍に上回る。
- 参考スコア(独自算出の注目度): 13.483546044414581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed on edge devices. To meet strict resource constraints, real-world deployment has pushed LLM quantization from 8-bit to 4-bit, 2-bit, and now 1.58-bit. Combined with lookup table (LUT)-based inference, CPUs run these ultra-low-bit LLMs even faster than NPUs, opening new opportunities for ubiquitous on-device intelligence. However, this paper identifies that LUT-based inference underutilizes memory bandwidth during parallel inference, which is required for prefilling, test-time scaling, and other multi-token scenarios. The root cause is the scalar LUT paradigm, which performs repetitive and non-contiguous memory accesses for each token. To solve the issue, we propose vector LUT, a new lookup paradigm that constructs a unified LUT across parallel tokens, and performs a single $1 \rightarrow N$ lookup per index. To realize it efficiently, we further introduce (1) Vector LUT-Centric Tensor Layout, and (2) Cache-Aware Streamed Lookup techniques. Evaluations on 5 edge devices across 3 LLMs show that Vec-LUT outperforms state-of-the-art baselines by up to $4.2\times$. Our implementation is integrated into llama.cpp. The code is available at https://github.com/Cipherxzc/vlut.cpp.
- Abstract(参考訳): 大規模言語モデル(LLM)はますますエッジデバイスにデプロイされている。
厳格なリソース制約を満たすために、実世界の展開はLLM量子化を8ビットから4ビット、2ビット、そして1.58ビットに推し進めた。
ルックアップテーブル(LUT)ベースの推論と組み合わせて、CPUはこれらの超低ビットのLSMをNPUよりも高速に実行し、ユビキタスなオンデバイスインテリジェンスのための新たな機会を開く。
しかし,本論文では,LUTに基づく推論は,プリフィルやテストタイムスケーリング,その他のマルチトークンシナリオにおいて必要となる並列推論において,メモリ帯域幅の低減を図っている。
根本原因はスカラーLUTパラダイムであり、各トークンに対して反復的かつ非連続的なメモリアクセスを実行する。
この問題を解決するためにベクトルLUTを提案する。これは並列トークンをまたいだ統一LUTを構築する新しいルックアップパラダイムであり、インデックスごとの1ドル10セントのN$ルックアップを実行する。
さらに, 効率よく実現するために, 1) ベクトル LUT-Centric Tensor Layout と (2) キャッシュ対応の Streamed Lookup 技術を紹介する。
3つのLDMにわたる5つのエッジデバイスの評価によると、Vec-LUTは最先端のベースラインを最大4.2\times$で上回っている。
私たちの実装はllama.cppに統合されます。
コードはhttps://github.com/Cipherxzc/vlut.cpp.comで入手できる。
関連論文リスト
- SparAMX: Accelerating Compressed LLMs Token Generation on AMX-powered CPUs [5.760049762453579]
大規模な言語モデルをCPUで加速することにより、より広いAIアクセスを低コストで、消費電力で実現する。
オープンソースでカスタマイズされたスパースカーネルのセットを提供し、任意のPyTorchモデルを高速化します。
我々は、現在のシステム上での1.14倍のスピードアップを達成するために、非構造化空間の使用を初めて実演する。
論文 参考訳(メタデータ) (2025-02-18T02:26:34Z) - Bitnet.cpp: Efficient Edge Inference for Ternary LLMs [71.5759603658299]
我々はBitNet b1.58と3次LLM向けに最適化された推論システムBitnetを紹介する。
Bitnetは、新しいmpGEMMライブラリを組み込んで、サブ-2ビット毎の軽量、効率的、損失のない推論を容易にする。
我々の実験は、Bitnetが全精度ベースラインで最大6.25倍、低ビットベースラインで最大2.32倍の速度を達成することを示した。
論文 参考訳(メタデータ) (2025-02-17T15:06:28Z) - LUT Tensor Core: A Software-Hardware Co-Design for LUT-Based Low-Bit LLM Inference [10.608817382813786]
混合精度行列(英: Mixed-precision matrix, mpGEMM)は、より高精度な活性化を伴う低精度重みの乗算を含む重要かつ未解明の演算である。
オフザシェルフハードウェアはこの操作をサポートしておらず、間接的、すなわち非効率な復号化ベースの実装に繋がる。
本稿では,mpGEMMのルックアップテーブル(LUT)に基づくアプローチについて検討し,従来のLUT実装では期待値の達成に失敗することを確認した。
論文 参考訳(メタデータ) (2024-08-12T08:52:14Z) - PolyLUT-Add: FPGA-based LUT Inference with Wide Inputs [1.730979251211628]
この研究はPolyLUT-Addを導入し、これは精度を向上させるために$A$ PolyLUTサブニューロンを組み合わせることによってニューロンの接続性を高める技術である。
我々は,MNIST,Jet Substructure Classification,Network Intrusion Detectionベンチマークに対する実装評価を行い,同様の精度でPolyLUT-AddがLUTの2.0-13.9times$と1.2-1.6times$の遅延低減を実現していることを確認した。
論文 参考訳(メタデータ) (2024-06-07T13:00:57Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Hundred-Kilobyte Lookup Tables for Efficient Single-Image Super-Resolution [7.403264755337134]
超解像(SR)方式は畳み込みニューラルネットワーク(CNN)を多用しており、これは集中的乗算(MAC)演算を含む。
これは、電力、コンピューティング、ストレージリソースによって歪んだデバイス上で実行されるエッジAIの体制と矛盾する。
この作業は、このストレージハードルに対処し、100キロバイトのLUT(HKLUT)モデルをオンチップキャッシュ用に革新する。
論文 参考訳(メタデータ) (2023-12-11T04:07:34Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。