論文の概要: Prefill vs. Decode Bottlenecks: SRAM-Frequency Tradeoffs and the Memory-Bandwidth Ceiling
- arxiv url: http://arxiv.org/abs/2512.22066v1
- Date: Fri, 26 Dec 2025 15:42:29 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:06:32.527114
- Title: Prefill vs. Decode Bottlenecks: SRAM-Frequency Tradeoffs and the Memory-Bandwidth Ceiling
- Title(参考訳): Prefill vs. Decode Bottlenecks: SRAM-周波数トレードオフとメモリバンド幅シーリング
- Authors: Hannah Atmer, Yuan Yao, Thiemo Voigt, Stefanos Kaxiras,
- Abstract要約: エネルギー消費は、大規模言語モデルの展開によるコストと環境への影響を規定する。
本稿では,LLM推論のエネルギー効率と性能に及ぼすオンチップサイズと動作周波数の影響について検討する。
- 参考スコア(独自算出の注目度): 5.606289163036201
- License:
- Abstract: Energy consumption dictates the cost and environmental impact of deploying Large Language Models. This paper investigates the impact of on-chip SRAM size and operating frequency on the energy efficiency and performance of LLM inference, focusing on the distinct behaviors of the compute-bound prefill and memory-bound decode phases. Our simulation methodology combines OpenRAM for energy modeling, LLMCompass for latency simulation, and ScaleSIM for systolic array operational intensity. Our findings show that total energy use is predominantly determined by SRAM size in both phases, with larger buffers significantly increasing static energy due to leakage, which is not offset by corresponding latency benefits. We quantitatively explore the memory-bandwidth bottleneck, demonstrating that while high operating frequencies reduce prefill latency, their positive impact on memory-bound decode latency is capped by the external memory bandwidth. Counter-intuitively, high compute frequency can reduce total energy by reducing execution time and consequently decreasing static energy consumption more than the resulting dynamic power increase. We identify an optimal hardware configuration for the simulated workload: high operating frequencies (1200MHz-1400MHz) and a small local buffer size of 32KB to 64KB. This combination achieves the best energy-delay product, balancing low latency with high energy efficiency. Furthermore, we demonstrate how memory bandwidth acts as a performance ceiling, and that increasing compute frequency only yields performance gains up to the point where the workload becomes memory-bound. This analysis provides concrete architectural insights for designing energy-efficient LLM accelerators, especially for datacenters aiming to minimize their energy overhead.
- Abstract(参考訳): エネルギー消費は、大規模言語モデルの展開によるコストと環境への影響を規定する。
本稿では,SRAMのオンチップサイズと動作周波数がLLM推論のエネルギー効率と性能に与える影響について検討し,計算-バウンドプリフィルとメモリ-バウンドデコード相の異なる挙動に着目した。
シミュレーション手法は,エネルギーモデリング用OpenRAM,遅延シミュレーション用LLMCompass,シストリックアレイ操作強度用ScaleSIMを組み合わせた。
以上の結果から, 両相のSRAMサイズにより総エネルギー使用量が決定され, バッファが大きくなった場合, リークにより静エネルギーが著しく増加することが示唆された。
メモリバンド幅のボトルネックを定量的に検討し、高い動作周波数でプリフィルレイテンシが減少する一方で、メモリバウンドデコード遅延に対する肯定的な影響は外部メモリ帯域幅によって抑制されることを示した。
対向的に、高い計算周波数は、実行時間を短縮し、結果として、結果の動的電力増加よりも静的エネルギー消費を減少させることで総エネルギーを減少させることができる。
動作周波数1200MHz-1400MHz、ローカルバッファサイズ32KBから64KBという,シミュレーションワークロードに適したハードウェア構成を同定する。
この組み合わせは、低レイテンシと高エネルギー効率のバランスを保ち、最高のエネルギー遅延製品を達成する。
さらに、メモリ帯域幅がパフォーマンスの天井としてどのように機能するかを示し、演算周波数の増加は、作業負荷がメモリバウンドになる時点までの性能向上をもたらすことを実証する。
この分析は、特にエネルギーオーバーヘッドを最小限に抑えるために、エネルギー効率の良いLCM加速器を設計するための具体的なアーキテクチャ上の洞察を提供する。
関連論文リスト
- CalibQuant: 1-Bit KV Cache Quantization for Multimodal LLMs [45.77132019859689]
CalibQuantは、メモリと計算オーバーヘッドの両方を大幅に削減する、視覚的な量子化戦略である。
InternVLモデルのスループットは10倍に向上する。
論文 参考訳(メタデータ) (2025-02-15T05:08:01Z) - MEADOW: Memory-efficient Dataflow and Data Packing for Low Power Edge LLMs [5.88896081401217]
大規模言語モデルのオフチップメモリアクセスを大幅に削減するフレームワークであるMEADOWを紹介する。
MEADOW は GEMM ベースの LLM 実装と比較して 1.5x と 2.5x のデコードとプリフィル遅延を示す。
MEADOWは、従来のLLM最適化作業と比較して、エンドツーエンドのレイテンシの改善を40%以上達成している。
論文 参考訳(メタデータ) (2025-02-14T23:50:37Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - OPIMA: Optical Processing-In-Memory for Convolutional Neural Network Acceleration [5.0389804644646174]
我々は,処理インメモリ(PIM)ベースの機械学習アクセラレータであるOPIMAを紹介する。
PIMは、内部データ移動のボトルネックのため、高いスループットとエネルギー効率を達成するのに苦労している。
我々は,OPIMAのスループットが2.98倍,エネルギー効率が137倍であることを示す。
論文 参考訳(メタデータ) (2024-07-11T06:12:04Z) - DAISM: Digital Approximate In-SRAM Multiplier-based Accelerator for DNN
Training and Inference [4.718504401468233]
PIMソリューションは、まだ成熟していない新しいメモリ技術か、パフォーマンス上のオーバーヘッドとスケーラビリティの問題のあるビットシリアル計算に依存している。
本稿では,従来のメモリを用いてビット並列計算を行い,複数のワードラインのアクティベーションを利用する,SRAM内デジタル乗算器を提案する。
次に、この乗算器を利用したアーキテクチャであるDAISMを導入し、SOTAと比較して最大2桁高い面積効率を実現し、競争エネルギー効率を向上する。
論文 参考訳(メタデータ) (2023-05-12T10:58:21Z) - Hitless memory-reconfigurable photonic reservoir computing architecture [1.4479776639062198]
貯留層計算(Reservoir computing)は、時間依存的な信号を効率的に処理するためのアナログバイオインスパイアされた計算モデルである。
非対称なマッハ・ツェンダー干渉計を共振器内に集積した新しいTDRCアーキテクチャを提案する。
本稿では,この手法を時間ビットワイズXORタスクで実証し,メモリ容量再構成によって最適な性能が達成できることを結論する。
論文 参考訳(メタデータ) (2022-07-13T14:43:40Z) - Fast and Memory-Efficient Network Towards Efficient Image
Super-Resolution [44.909233016062906]
我々は、資源制約のあるデバイスのためのメモリ効率の高い画像超解像ネットワーク(FMEN)を構築した。
FMENは、最先端のEISRモデルであるE-RFDNと比較して33%高速で、メモリ消費を74%削減する。
FMEN-S は NTIRE 2022 の高効率超解像における最小のメモリ消費と2番目に短いランタイムを実現する。
論文 参考訳(メタデータ) (2022-04-18T16:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。