Fugu-MT 論文翻訳(概要): Injecting Adrenaline into LLM Serving: Boosting Resource Utilization and Throughput via Attention Disaggregation

論文の概要: Injecting Adrenaline into LLM Serving: Boosting Resource Utilization and Throughput via Attention Disaggregation

arxiv url: http://arxiv.org/abs/2503.20552v1
Date: Wed, 26 Mar 2025 13:48:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 19:18:47.189672
Title: Injecting Adrenaline into LLM Serving: Boosting Resource Utilization and Throughput via Attention Disaggregation
Title（参考訳）: アドレナリンのLDM血清への注入:注意散布による資源利用とアウトプットの促進
Authors: Yunkai Liang, Zhangyu Chen, Pengfei Zuo, Zhi Zhou, Xu Chen, Zhou Yu,
Abstract要約: 大規模言語モデル(LLM)サービスシステムでは、各要求の実行は、計算集約型プリフィルフェーズとメモリ集約型デコードフェーズの2つのフェーズで構成される。本稿では,資源利用と性能の向上を目的としたアダプティブ・デアグリゲーション・オフロード機構であるアドレナリンを提案する。実験の結果,アドレナリンのメモリ容量は2.28倍,メモリ帯域幅は2.07倍に向上した。
参考スコア（独自算出の注目度）: 23.130886760027586
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In large language model (LLM) serving systems, executing each request consists of two phases: the compute-intensive prefill phase and the memory-intensive decoding phase. To prevent performance interference between the two phases, current LLM serving systems typically adopt prefill-decoding disaggregation, where the two phases are split across separate machines. However, we observe this approach leads to significant resource underutilization. Specifically, prefill instances that are compute-intensive suffer from low memory utilization, while decoding instances that are memory-intensive experience low compute utilization. To address this problem, this paper proposes Adrenaline, an attention disaggregation and offloading mechanism designed to enhance resource utilization and performance in LLM serving systems. Adrenaline's key innovation lies in disaggregating part of the attention computation in the decoding phase and offloading them to prefill instances. The memory-bound nature of decoding-phase attention computation inherently enables an effective offloading strategy, yielding two complementary advantages: 1) improved memory capacity and bandwidth utilization in prefill instances, and 2) increased decoding batch sizes that enhance compute utilization in decoding instances, collectively boosting overall system performance. Adrenaline achieves these gains through three key techniques: low-latency decoding synchronization, resource-efficient prefill colocation, and load-aware offloading scheduling. Experimental results show that Adrenaline achieves 2.28x higher memory capacity and 2.07x better memory bandwidth utilization in prefill instances, up to 1.67x improvements in compute utilization for decoding instances, and 1.68x higher overall inference throughput compared to state-of-the-art systems.
Abstract（参考訳）: 大規模言語モデル(LLM)サービスシステムでは、各要求の実行は、計算集約型プリフィルフェーズとメモリ集約型デコードフェーズの2つのフェーズで構成される。 2つのフェーズ間の性能干渉を防止するため、現在のLLMサービスシステムでは、2つのフェーズを別々のマシンで分割するプリフィル・デコード・デアグリゲーションを採用するのが一般的である。しかし,本手法は資源の未利用化に繋がると考えられる。具体的には、計算集約型のプリフィルインスタンスはメモリ使用率の低下に悩まされ、メモリ集約型のデコードインスタンスは計算使用率の低下を経験する。そこで本研究では,LLMサービスシステムにおける資源利用と性能向上を目的としたアダプティブ・デアグリゲーション・オフロード機構であるアドレナリンを提案する。アドレナリンの重要な革新は、デコードフェーズにおける注意計算の一部を分離し、それらをプリフィルインスタンスにオフロードすることである。デコードフェーズアテンション計算のメモリバウンド特性は、本質的に効果的なオフロード戦略を可能にし、2つの相補的な利点をもたらす。 1)プリフィルインスタンスにおけるメモリ容量と帯域利用率の改善 2)デコードバッチサイズが増加し,デコードインスタンスの計算利用が向上し,システム全体のパフォーマンスが向上した。アドレナリンは、低遅延復号化同期、リソース効率のよいプリフィルコロケーション、負荷対応のオフロードスケジューリングという3つの重要なテクニックによって、これらの利益を達成する。実験の結果、アドレナリンはプリフィルインスタンスのメモリ容量が2.28倍、メモリ帯域幅が2.07倍、復号インスタンスの計算利用が最大1.67倍、予測スループットが最先端システムに比べて1.68倍向上していることがわかった。

関連論文リスト

semi-PD: Towards Efficient LLM Serving via Phase-Wise Disaggregated Computation and Unified Storage [6.805644270436825]
本稿では,分散計算と統一ストレージを特徴とする,新たな大規模言語モデル (LLM) サービスシステムであるセミPDを提案する。最先端システムと比較して、セミPDはより高い要求レートでレイテンシを低く保ち、リクエスト毎の平均エンドツーエンドレイテンシを1.27-2.58倍削減する。
論文参考訳（メタデータ） (2025-04-28T15:00:03Z)
Apt-Serve: Adaptive Request Scheduling on Hybrid Cache for Scalable LLM Inference Serving [22.66354939370058]
Apt-Serveは、大規模言語モデル(LLM)推論サービスシステムにおける効果的なスループットを高めるために設計されたフレームワークである。新たなハイブリッドキャッシュスキームでは、KVキャッシュとメモリ効率の高い隠れキャッシュを組み合わせることで、再利用可能な入力隠れ状態ベクタを実現し、バッチサイズを大きくし、要求を改善する。 Apt-Serveは,最先端の推論サービスシステムと比較して,スループットが最大8.8倍向上することを示す。
論文参考訳（メタデータ） (2025-04-10T06:51:23Z)
A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。 POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文参考訳（メタデータ） (2024-10-23T17:06:56Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)
Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。 LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。 LASERは公開データセットの3～5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文参考訳（メタデータ） (2024-08-11T02:31:13Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文参考訳（メタデータ） (2024-03-13T16:30:57Z)
RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文参考訳（メタデータ） (2024-02-22T18:58:28Z)
Efficient Memory Management for Large Language Model Serving with PagedAttention [44.70922552274376]
大規模言語モデル(LLM)の高スループットサービスには,一度に十分な数の要求が要求される。既存のシステムでは、各要求のキー値キャッシュ(KVキャッシュ)メモリが巨大で、成長し、動的に縮小するため、苦労している。本稿では,オペレーティングシステムにおける従来の仮想メモリとページング技術にヒントを得たアテンションアルゴリズムであるPagedAttentionを提案する。
論文参考訳（メタデータ） (2023-09-12T12:50:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。