論文の概要: SPAD: Specialized Prefill and Decode Hardware for Disaggregated LLM Inference
- arxiv url: http://arxiv.org/abs/2510.08544v1
- Date: Thu, 09 Oct 2025 17:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.29111
- Title: SPAD: Specialized Prefill and Decode Hardware for Disaggregated LLM Inference
- Title(参考訳): SPAD: 分散LDM推論のための専用プリフィルとデコードハードウェア
- Authors: Hengrui Zhang, Pratyush Patel, August Ning, David Wentzlaff,
- Abstract要約: 大規模言語モデル(LLM)は近年人気を集めており、推論の需要が高まっている。
LLMの推論は、計算バウンドプリフィルフェーズとメモリバウンドデコードフェーズという、2つの異なる特徴を持つフェーズで構成されている。
本稿では,プリフィルおよびデコード位相の異なる特性に合わせた専用チップを設計するためのSPAD(Specialized Prefill and Decode hardware)を提案する。
- 参考スコア(独自算出の注目度): 14.098413807568681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have gained popularity in recent years, driving up the demand for inference. LLM inference is composed of two phases with distinct characteristics: a compute-bound prefill phase followed by a memory-bound decode phase. To efficiently serve LLMs, prior work proposes prefill-decode disaggregation to run each phase on separate hardware. However, existing hardware poorly matches the different requirements of each phase. Current datacenter GPUs and TPUs follow a more-is-better design philosophy that maximizes compute and memory resources, causing memory bandwidth underutilization in the prefill phase and compute underutilization in the decode phase. Such underutilization directly translates into increased serving costs. This paper proposes SPAD (Specialized Prefill and Decode hardware), adopting a less-is-more methodology to design specialized chips tailored to the distinct characteristics of prefill and decode phases. The proposed Prefill Chips have larger systolic arrays and use cost-effective GDDR memory, whereas the proposed Decode Chips retain high memory bandwidth but reduce compute capacity. Compared to modeled H100s, simulations show that the proposed Prefill Chips deliver 8% higher prefill performance on average at 52% lower hardware cost, while the proposed Decode Chips achieve 97% of the decode performance with 28% lower TDP. End-to-end simulations on production traces show that SPAD reduces hardware cost by 19%-41% and TDP by 2%-17% compared to modeled baseline clusters while offering the same performance. Even when models and workloads change, SPAD can reallocate either type of chip to run either phase and still achieve 11%-43% lower hardware costs, demonstrating the longevity of the SPAD design.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年人気を集めており、推論の需要が高まっている。
LLM推論は、計算バウンドプリフィルフェーズとメモリバウンドデコードフェーズの2つの特徴を持つ。
LLMを効率的に利用するために、以前の研究では、各フェーズを別々のハードウェア上で実行するプリフィル・デコード・デアグリゲーションを提案していた。
しかし、既存のハードウェアは各フェーズの異なる要件に合わない。
現在のデータセンターGPUとTPUは、計算資源とメモリ資源を最大化し、プリフィルフェーズでメモリ帯域を過小評価し、デコードフェーズで過小評価を行うという、よりベターな設計思想に従っている。
このような未利用化は、直接的にサービスコストの増大に繋がる。
本稿では,SPAD(Specialized Prefill and Decode hardware)を提案する。
提案したPrefill Chipsはシストリクス配列が大きく、コスト効率のよいGDDRメモリを使用するが、提案したDecode Chipsは高いメモリ帯域幅を保持するが、計算能力は低下する。
H100と比較すると、提案したプリフィルチップはハードウェアコストの52%で平均8%高いプリフィル性能を実現し、提案したデコードチップは28%低いTDPでデコード性能の97%を達成した。
生産トレースのエンドツーエンドシミュレーションでは、SPADはハードウェアコストを19%-41%削減し、TDPは2%-17%削減した。
モデルやワークロードが変更されても、SPADはいずれかのタイプのチップを再配置して、いずれのフェーズでも動作させ、ハードウェアコストを11%-43%削減し、SPAD設計の長寿を実証することができる。
関連論文リスト
- HALO: Memory-Centric Heterogeneous Accelerator with 2.5D Integration for Low-Batch LLM Inference [8.057006406834462]
大きな言語モデル(LLM)は、レイテンシに敏感なアプリケーションにおける効率的な推論の需要を増大させた。
これらの課題に対するヘテロジニアスメモリ中心のアクセラレータであるHALOを提案する。
HALOはAtAccの最大18倍の幾何平均速度を達成し,注目度を最適化したマッピング,CENTの2.5倍を実現している。
論文 参考訳(メタデータ) (2025-10-03T02:20:17Z) - MAHL: Multi-Agent LLM-Guided Hierarchical Chiplet Design with Adaptive Debugging [30.305211001929496]
大きな言語モデル(LLM)は2.5Dに拡張することを約束している。
LLMはフラットな設計、高い検証コスト、不正確なパラメータ最適化といった課題に直面している。
階層型LLMベースのチップレット設計生成フレームワークであるMAHLを提案する。
論文 参考訳(メタデータ) (2025-08-08T05:47:31Z) - Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。
PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文 参考訳(メタデータ) (2025-07-09T07:27:18Z) - Efficiently Serving Large Multimodal Models Using EPD Disaggregation [24.05805398635414]
Encode-Prefill-Decode Disaggregation(エンコード・プリフィル・デコード・デコード・デアグリゲーション)という,エンコード・プリフィル・デコード・デコード・デアグリゲーション(Encode-Prefill-Decode Disaggregation)というフレームワークを紹介した。
エンコーディングとプリフィルをバンドルする現在のシステムとは異なり、私たちのアプローチはこれらのステップを分離し、新たな機会と最適化を解放します。
一般的なLMMを用いた実験では、メモリ効率(ピークメモリ使用率の最大15倍)、バッチサイズ(最大22倍)、リクエストあたり10倍のイメージ、および2.2倍のKVキャッシュが大幅に向上した。
論文 参考訳(メタデータ) (2024-12-25T10:11:31Z) - POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。
POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文 参考訳(メタデータ) (2024-10-23T17:06:56Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。