論文の概要: LUT-LLM: Efficient Large Language Model Inference with Memory-based Computations on FPGAs
- arxiv url: http://arxiv.org/abs/2511.06174v1
- Date: Sun, 09 Nov 2025 01:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.793644
- Title: LUT-LLM: Efficient Large Language Model Inference with Memory-based Computations on FPGAs
- Title(参考訳): LUT-LLM:FPGA上でのメモリベース計算による高速大言語モデル推論
- Authors: Zifan He, Shengyu Ye, Rui Ma, Yang Wang, Jason Cong,
- Abstract要約: 本稿では,ベクトル量子化メモリ演算による1B+LLM推論を実現するFPGAアクセラレータLUT-LLMを提案する。
LUT-LLMはAMD MI210より1.66倍、NVIDIA A100より1.72倍のエネルギー効率を実現し、A100より2.16倍の効率で32Bモデルにスケールする。
- 参考スコア(独自算出の注目度): 14.676146518251185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of large language models (LLMs) has advanced numerous applications, yet efficient single-batch inference remains vital for on-device intelligence. While FPGAs offer fine-grained data control and high energy efficiency, recent GPU optimizations have narrowed their advantage, especially under arithmetic-based computation. To overcome this, we leverage FPGAs' abundant on-chip memory to shift LLM inference from arithmetic- to memory-based computation through table lookups. We present LUT-LLM, the first FPGA accelerator enabling 1B+ LLM inference via vector-quantized memory operations. Our analysis identifies activation-weight co-quantization as the most effective scheme, supported by (1) bandwidth-aware parallel centroid search, (2) efficient 2D table lookups, and (3) a spatial-temporal hybrid design minimizing data caching. Implemented on an AMD V80 FPGA for a customized Qwen 3 1.7B model, LUT-LLM achieves 1.66x lower latency than AMD MI210 and 1.72x higher energy efficiency than NVIDIA A100, scaling to 32B models with 2.16x efficiency gain over A100.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は多くの応用が進んでいるが、デバイス上のインテリジェンスには効率的な単一バッチ推論が不可欠である。
FPGAは細かいデータ制御と高エネルギー効率を提供するが、最近のGPU最適化は、特に算術ベースの計算では、その利点を狭めている。
これを解決するため、FPGAの豊富なオンチップメモリを活用し、LLM推論を数式からテーブルルックアップによるメモリベースの計算にシフトする。
本稿では,ベクトル量子化メモリ演算による1B+LLM推論を実現するFPGAアクセラレータLUT-LLMを提案する。
本分析では,(1)帯域幅を意識した並列セントロイド探索,(2)効率的な2次元テーブル検索,(3)データキャッシングを最小化する時空間ハイブリッド設計などにより,活性化重み付き共量子化を最も有効なスキームとして認識する。
カスタマイズされたQwen 3 1.7BモデルのためにAMD V80 FPGAに実装され、LUT-LLMはAMD MI210の1.66倍のレイテンシとNVIDIA A100の1.72倍のエネルギー効率を達成する。
関連論文リスト
- dInfer: An Efficient Inference Framework for Diffusion Language Models [54.80918957287927]
拡散に基づく大規模言語モデル (dLLM) は自己回帰(AR) LLM に代わる有望な代替品として登場した。
本稿では、dLLM推論のための効率的かつ効率的なフレームワークであるdInferについて述べる。
論文 参考訳(メタデータ) (2025-10-09T16:19:42Z) - Runtime Tunable Tsetlin Machines for Edge Inference on eFPGAs [0.2294388534633318]
eFPGAはエッジ機械学習(ML)アプリケーションのハードウェアアクセラレータを低消費電力で設計することができる。
限られたeFPGA論理とメモリは計算能力とモデルサイズを著しく制限した。
提案するeFPGAアクセラレータは、リソース使用量の最小化と、スループットに対するオンフィールドリカバリの柔軟性の実現に重点を置いている。
論文 参考訳(メタデータ) (2025-02-10T12:49:22Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs [0.0]
Transformer Neural Network(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に応用されている。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの重み付きマルチヘッドアテンション計算のためのフレキシブルハードウェアアクセラレータである textitFamous を提案する。
並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。
論文 参考訳(メタデータ) (2024-09-21T05:25:46Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - FlightLLM: Efficient Large Language Model Inference with a Complete
Mapping Flow on FPGAs [23.381331567339526]
Transformer-based Large Language Models (LLMs) は様々な領域に多大な影響を与えている。
本稿では,FPGA上での完全なマッピングフローを用いて,効率的なLLM推論を実現するFlightLLMを提案する。
FlightLLMは最新のVersal VHK158 FPGAを使用して1.2$times$高スループットでNVIDIA A100 GPUを破る。
論文 参考訳(メタデータ) (2024-01-08T13:00:53Z) - Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。
本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文 参考訳(メタデータ) (2023-12-23T04:27:06Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - iELAS: An ELAS-Based Energy-Efficient Accelerator for Real-Time Stereo
Matching on FPGA Platform [21.435663827158564]
FPGAプラットフォーム上でのリアルタイムELASステレオマッチングのためのエネルギー効率の高いアーキテクチャを提案する。
当社のFPGA実現は、38.4xと3.32xのフレームレート改善、27.1xと1.13xのエネルギー効率改善を実現します。
論文 参考訳(メタデータ) (2021-04-11T21:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。