論文の概要: FPGA Co-Design for Efficient N:M Sparse and Quantized Model Inference
- arxiv url: http://arxiv.org/abs/2512.24713v1
- Date: Wed, 31 Dec 2025 08:27:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.60925
- Title: FPGA Co-Design for Efficient N:M Sparse and Quantized Model Inference
- Title(参考訳): 効率的なN:Mスパースと量子モデル推論のためのFPGA共設計
- Authors: Fen-Yu Hsieh, Yun-Chang Teng, Ding-Yong Hong, Jan-Jan Wu,
- Abstract要約: 大規模言語モデル(LLM)は、幅広い言語処理タスクにおいて顕著な性能を示している。
この研究は、ウェイトプルーニングと低ビット量子化を活用する自動化フレームワークを導入している。
本研究では,FPGA(Field-Programmable Gate Array)プラットフォーム上でアクセラレータを生成するハードウェア・ソフトウェア共同設計手法を提案する。
- 参考スコア(独自算出の注目度): 0.8749675983608171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable performance across a wide range of language processing tasks. However, this success comes at the cost of substantial computation and memory requirements, which significantly impedes their deployment in resource-constrained environments. To address this challenge, this work introduces an automation framework that leverages weight pruning and low-bit quantization, and presents a hardware-software co-design method that generates accelerators on the Field-Programmable Gate Array (FPGA) platform. In particular, we implement a unified pipeline that applies N:M structured pruning and 4-bit integer quantization to reduce the memory footprint, followed by optimized dequantization and matrix multiplication to enhance LLM inference on several hardware platforms, including CPUs, NVIDIA GPUs with Dense and 2:4 Sparse Tensor Cores, and a custom systolic-array-based FPGA accelerator. Utilizing 2:4 sparsity combined with quantization on $4096 \times 4096$ matrices, our approach achieves a reduction of up to $4\times$ in weight storage and a $1.71\times$ speedup in matrix multiplication, yielding a $1.29\times$ end-to-end latency reduction compared to dense GPU baselines. Scaling analysis on the LLaMA-7B model further shows that structured sparsity enhances the throughput per token by $1.36\times$. These results demonstrate the synergy of fine-grained N:M sparsity and quantization for enabling efficient and deployable LLM inference, while the proposed FPGA accelerator offers a flexible architectural path for supporting a broader class of sparsity patterns beyond the fixed 2:4 hardware constraints.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い言語処理タスクにおいて顕著な性能を示している。
しかし、この成功は、かなりの計算とメモリ要件のコストが伴うため、リソース制約のある環境へのデプロイメントを著しく阻害する。
この課題に対処するために、ウェイトプルーニングと低ビット量子化を活用する自動化フレームワークを導入し、Field-Programmable Gate Array (FPGA)プラットフォーム上でアクセラレータを生成するハードウェアとソフトウェアの共同設計手法を提案する。
特に、メモリフットプリントを削減するため、N:M構造化プルーニングと4ビット整数量子化を適用した統一パイプラインを実装し、その後、CPU、Dense付きNVIDIA GPU、2:4スパーステンソルコア、カスタムシストリックアレイベースのFPGAアクセラレータなど、複数のハードウェアプラットフォーム上でのLCM推論を強化するために、最適化された量子化と行列乗算を行った。
4096 \times 4096$行列の量子化と組み合わせた2:4のスパーシリティを利用することで、当社のアプローチは、重量記憶の最大4\times$と行列乗算の1.71\times$の高速化を実現し、密度の高いGPUベースラインと比較して1.29\times$エンドツーエンドのレイテンシ削減を実現している。
LLaMA-7Bモデルのスケーリング解析により、構造化されたスパシティはトークン当たりのスループットを$1.36\times$で向上することが示された。
提案したFPGAアクセラレータは、固定された2:4ハードウェア制約を超えて、より広い範囲の空間パターンをサポートする柔軟なアーキテクチャパスを提供する。
関連論文リスト
- GANQ: GPU-Adaptive Non-Uniform Quantization for Large Language Models [2.1388885579612804]
GANQは、ハードウェア効率の良いルックアップテーブルベースのmpGEMMに最適化されたレイヤーワイズ後の非一様量子化フレームワークである。
広汎な実験は、3ビットおよび4ビット量子化の最先端手法と比較して、GANQのFP16ベースラインからのパープレキシティギャップを低減する能力を示している。
論文 参考訳(メタデータ) (2025-01-22T15:29:09Z) - FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs [0.0]
Transformer Neural Network(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に応用されている。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの重み付きマルチヘッドアテンション計算のためのフレキシブルハードウェアアクセラレータである textitFamous を提案する。
並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。
論文 参考訳(メタデータ) (2024-09-21T05:25:46Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM [6.85331857224501]
LLM(Large Language Models)は、メモリ要件と計算能力に関する重要なハードウェア上の課題を提起する。
LLMには2つの主要な量子化スキームがある: 粗粒(textite.g.$ channel-wise)量子化と細粒(textite.g.$ group-wise)量子化である。
我々は、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。
論文 参考訳(メタデータ) (2023-10-07T14:50:28Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。