論文の概要: FlexLLM: Composable HLS Library for Flexible Hybrid LLM Accelerator Design
- arxiv url: http://arxiv.org/abs/2601.15710v1
- Date: Thu, 22 Jan 2026 07:31:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.524612
- Title: FlexLLM: Composable HLS Library for Flexible Hybrid LLM Accelerator Design
- Title(参考訳): FlexLLM: フレキシブルハイブリッドLDMアクセラレータ設計のための構成可能なHLSライブラリ
- Authors: Jiahao Zhang, Zifan He, Nicholas Fraser, Michaela Blott, Yizhou Sun, Jason Cong,
- Abstract要約: ドメイン固有のLCM加速器を迅速に開発するための構成可能な高レベル合成ライブラリFlexLLMを提案する。
我々はLlama-3.2 1Bモデルの完全な推論システムを,たった1K行のコードで2ヶ月以内に構築する。
16nmのAMD U280 FPGAでは、1.29$times$エンドツーエンドのスピードアップ、1.64$times$高デコードスループット、3.14$times$BF16推論を実行しているNVIDIA A100 GPUよりもエネルギー効率が良い。
- 参考スコア(独自算出の注目度): 40.39807270881305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present FlexLLM, a composable High-Level Synthesis (HLS) library for rapid development of domain-specific LLM accelerators. FlexLLM exposes key architectural degrees of freedom for stage-customized inference, enabling hybrid designs that tailor temporal reuse and spatial dataflow differently for prefill and decode, and provides a comprehensive quantization suite to support accurate low-bit deployment. Using FlexLLM, we build a complete inference system for the Llama-3.2 1B model in under two months with only 1K lines of code. The system includes: (1) a stage-customized accelerator with hardware-efficient quantization (12.68 WikiText-2 PPL) surpassing SpinQuant baseline, and (2) a Hierarchical Memory Transformer (HMT) plug-in for efficient long-context processing. On the AMD U280 FPGA at 16nm, the accelerator achieves 1.29$\times$ end-to-end speedup, 1.64$\times$ higher decode throughput, and 3.14$\times$ better energy efficiency than an NVIDIA A100 GPU (7nm) running BF16 inference; projected results on the V80 FPGA at 7nm reach 4.71$\times$, 6.55$\times$, and 4.13$\times$, respectively. In long-context scenarios, integrating the HMT plug-in reduces prefill latency by 23.23$\times$ and extends the context window by 64$\times$, delivering 1.10$\times$/4.86$\times$ lower end-to-end latency and 5.21$\times$/6.27$\times$ higher energy efficiency on the U280/V80 compared to the A100 baseline. FlexLLM thus bridges algorithmic innovation in LLM inference and high-performance accelerators with minimal manual effort.
- Abstract(参考訳): ドメイン固有のLCM加速器を高速に開発するための,構成可能な高レベル合成(HLS)ライブラリFlexLLMを提案する。
FlexLLMは、段階的にカスタマイズされた推論のための重要なアーキテクチャ上の自由度を公開し、プリフィルとデコードのために時間的再利用と空間的データフローを異なるタイミングで調整するハイブリッド設計を可能にし、正確な低ビット展開をサポートする包括的な量子化スイートを提供する。
FlexLLMを使って、Llama-3.2 1Bモデルの完全な推論システムをたった1K行のコードで2ヶ月以内に構築する。
本システムは,(1)SpinQuantベースラインを超えるハードウェア効率の量子化(12.68 WikiText-2 PPL)のステージカストマイズされたアクセラレータと,(2)高速長文処理のための階層メモリ変換器(HMT)プラグインを備える。
16nmのAMD U280 FPGAでは、1.29$\times$ end-to-end speedup, 1.64$\times$ higher decode throughput, 3.14$\times$ better energy efficiency than a NVIDIA A100 GPU (7nm) running BF16 inference, projected results on the V80 FPGA at 7nm, reach 4.71$\times$, 6.55$\times$, 4.13$\times$が達成されている。
長いコンテキストのシナリオでは、HMTプラグインを統合することで、プレフィルのレイテンシを23.23$\times$に減らし、コンテキストウィンドウを64$\times$に拡張し、1.10$\times$/4.86$\times$ローエンド・ツー・エンドのレイテンシと5.21$\times$/6.27$\times$高エネルギー効率をA100ベースラインと比較して提供する。
これによりFlexLLMは、LLM推論と高性能アクセラレータにおけるアルゴリズムの革新を最小限の手作業で橋渡しする。
関連論文リスト
- SlideSparse: Fast and Flexible (2N-2):2N Structured Sparsity [86.71343842875878]
NVIDIAの2:4 Sparse Coresは2倍のスループットを提供するが、厳しい50%のプルーニングを要求する。
Milder $(2N-2):2N$パターンは正確さを維持しながらハードウェアサポートを受けない。
Sparse Coreアクセラレーションをアンロックする最初のシステムであるSlideSparseを紹介する。
論文 参考訳(メタデータ) (2026-03-05T14:49:16Z) - FPGA Co-Design for Efficient N:M Sparse and Quantized Model Inference [0.8749675983608171]
大規模言語モデル(LLM)は、幅広い言語処理タスクにおいて顕著な性能を示している。
この研究は、ウェイトプルーニングと低ビット量子化を活用する自動化フレームワークを導入している。
本研究では,FPGA(Field-Programmable Gate Array)プラットフォーム上でアクセラレータを生成するハードウェア・ソフトウェア共同設計手法を提案する。
論文 参考訳(メタデータ) (2025-12-31T08:27:40Z) - dInfer: An Efficient Inference Framework for Diffusion Language Models [54.80918957287927]
拡散に基づく大規模言語モデル (dLLM) は自己回帰(AR) LLM に代わる有望な代替品として登場した。
本稿では、dLLM推論のための効率的かつ効率的なフレームワークであるdInferについて述べる。
論文 参考訳(メタデータ) (2025-10-09T16:19:42Z) - APT-LLM: Exploiting Arbitrary-Precision Tensor Core Computing for LLM Acceleration [5.075697428779204]
大規模言語モデル(LLM)は、AIアプリケーションに革命をもたらしたが、その膨大な計算要求は、デプロイメントとリアルタイムのパフォーマンスを著しく制限している。
これは主にGPU Coreの限定的なサポート、非効率なメモリ管理、非フレキシブルなカーネル最適化が原因である。
本稿では,任意の精度のLLM,すなわちAPT-LLMに対する包括的加速法を提案する。
論文 参考訳(メタデータ) (2025-08-26T14:48:29Z) - FlexQ: Efficient Post-training INT6 Quantization for LLM Serving via Algorithm-System Co-Design [13.062940916273973]
大規模言語モデル(LLM)は例外的な性能を示すが、かなりのメモリと計算コストを必要とする。
既存のINT4/INT8量子化はこれらのコストを削減するが、しばしば精度を低下させるか、最適効率を欠く。
アルゴリズムの革新とシステムレベルの評価を組み合わせた新しいフレームワークFlexQを提案する。
論文 参考訳(メタデータ) (2025-08-06T12:47:05Z) - TeLLMe: An Energy-Efficient Ternary LLM Accelerator for Prefilling and Decoding on Edge FPGAs [5.889337608109388]
TeLLMeは、低消費電力FPGAのための最初の3次LLMアクセラレータである。
1.58ビットの重みと8ビットのアクティベーションを使用するプリフィルと自動回帰デコードの両方をサポートする。
7Wの電力予算の下では、TeLLMeは最大9トークン/秒のスループットを1,024トークンのコンテキストで提供する。
論文 参考訳(メタデータ) (2025-04-22T21:00:58Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - FlexLLM: Token-Level Co-Serving of LLM Inference and Finetuning with SLO Guarantees [19.58773369944074]
タスク適応には、大規模な言語モデル(LLM)の微調整が不可欠だが、今日のサービススタックは、推論と個別のGPUクラスタ上での微調整を分離している。
本稿では,LLM推論とPEFTに基づく共通GPUのファインタニングをトークンレベルで融合した最初のシステムであるFlexLLMを紹介する。
実行時に、新しいトークンレベルの微調整機構がハイブリッドトークンスケジューラと組み合わせて、共用イテレーション毎に推論とトレーニングトークンを動的にインターリーブする。
論文 参考訳(メタデータ) (2024-02-29T01:33:08Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。