Fugu-MT 論文翻訳(概要): POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference

論文の概要: POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference

arxiv url: http://arxiv.org/abs/2410.18038v1
Date: Wed, 23 Oct 2024 17:06:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.541745
Title: POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference
Title（参考訳）: POD-Attention: より高速なLLM推論のための完全プリフィル・デコードオーバーラップのアンロック
Authors: Aditya K Kamath, Ramya Prabhu, Jayashree Mohan, Simon Peter, Ramachandran Ramjee, Ashish Panwar,
Abstract要約: 我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。 POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
参考スコア（独自算出の注目度）: 9.164093249308419
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Each request in LLM inference goes through two phases: compute-bound prefill and memory-bandwidth-bound decode. To improve GPU utilization, recent systems use hybrid batching that combines the prefill and decode phases of different requests into the same batch. Hybrid batching works well for linear operations as it amortizes the cost of loading model weights from HBM. However, attention computation in hybrid batches remains inefficient because existing attention kernels are optimized for either prefill or decode. In this paper, we present POD-Attention -- the first GPU kernel that efficiently computes attention for hybrid batches. POD-Attention aims to maximize the utilization of both compute and memory bandwidth by carefully allocating the GPU's resources such that prefill and decode operations happen concurrently on the same multiprocessor. We integrate POD-Attention in a state-of-the-art LLM inference scheduler Sarathi-Serve. POD-Attention speeds up attention computation by up to 75% (mean 28%) and increases LLM serving throughput by up to 22% in offline inference. In online inference, POD-Attention enables lower time-to-first-token (TTFT), time-between-tokens (TBT), and request execution latency versus Sarathi-Serve.
Abstract（参考訳）: LLM推論の各要求は、計算バウンドプリフィルとメモリ帯域バウンドデコードという2つのフェーズを経る。 GPU利用を改善するために、最近のシステムは、異なるリクエストのプレフィルとデコードフェーズを同じバッチに組み合わせたハイブリッドバッチを使用する。ハイブリッドバッチは、HBMからモデル重みをロードするコストを抑えるため、線形操作にはうまく機能する。しかし、既存のアテンションカーネルはプリフィルやデコードに最適化されているため、ハイブリッドバッチでのアテンション計算は効率的ではない。本稿では,ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを提案する。 POD-Attentionは、プリフィルとデコード操作が同じマルチプロセッサ上で同時に行われるように、GPUのリソースを慎重に割り当てることで、計算とメモリの帯域幅の両方の利用を最大化することを目的としている。我々は現在最先端のLLM推論スケジューラであるSarathi-ServeにPOD-Attentionを統合する。 POD-Attentionは、注意計算を75%(平均28%)高速化し、LLMのスループットを最大22%向上させる。オンライン推論では、POD-Attentionは、TTFT(low time-to-first-token)、TBT(time-between-tokens)、Sarathi-Serveに対する実行遅延を要求できる。

関連論文リスト

FastUSP: A Multi-Level Collaborative Acceleration Framework for Distributed Diffusion Model Inference [11.772150619675527]
Unified Sequence Parallelism (USP) は分散アテンション計算のための最先端のアプローチとして登場した。既存のUSP実装は、カーネルの起動オーバーヘッドと準通信スケジューリングに悩まされている。コンパイルレベル最適化,通信レベル最適化,演算子レベル最適化を統合したフレームワークである textbfFastUSP を提案する。
論文参考訳（メタデータ） (2026-02-11T15:19:57Z)
PackInfer: Compute- and I/O-Efficient Attention for Batched LLM Inference [11.149400020066333]
バッチ推論のための計算およびI/O認識実行を可能にするカーネルレベルのアテンションフレームワークであるPackInferを提案する。 PackInferはレイテンシを13.0-20.1%削減し、最先端のFlashAttentionと比較してスループットを20%改善する。
論文参考訳（メタデータ） (2026-02-03T01:46:34Z)
Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。 Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文参考訳（メタデータ） (2026-01-29T09:23:13Z)
Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。 BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文参考訳（メタデータ） (2025-11-04T01:15:44Z)
Spotlight Attention: Towards Efficient LLM Generation via Non-linear Hashing-based KV Cache Retrieval [67.21678698740267]
本研究では,クエリやキーの埋め込み分布を最適化するために,非線形ハッシュ関数を利用する新しい手法であるSpotlight Attentionを紹介する。また、Bradley-Terryランキングに基づく損失を利用して、軽量で安定したトレーニングフレームワークを開発する。
論文参考訳（メタデータ） (2025-08-27T10:11:27Z)
Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive [58.0729162588429]
インタラクティブセグメンテーションは、ユーザプロンプトからターゲット領域をセグメンテーションすることで、アノテーション効率を向上させる。現在のアプローチは重要なトレードオフに直面している。密度の高いメソッドは精度が向上するが、CPUデバイスでの処理が著しく遅くなる。そこで我々は,高密度な処理における計算割り当てを最適化することで,この問題に対処するInter2Formerを提案する。
論文参考訳（メタデータ） (2025-07-13T12:33:37Z)
Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。 PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文参考訳（メタデータ） (2025-07-09T07:27:18Z)
HGCA: Hybrid GPU-CPU Attention for Long Context LLM Inference [8.826966369389893]
大規模言語モデルのためのハイブリッドCPU-GPUアテンション機構であるHGCAを提案する。我々はHGCAが優れたスケーラビリティを実現し、より長いシーケンスとより大きなバッチサイズをサポートし、性能と正確性の両方において、既存の疎い注意基準よりも優れていることを示す。さまざまなモデルとワークロードにわたる実験によると、HGCAは優れたスケーラビリティを実現し、長いシーケンスとより大きなバッチサイズをサポートし、パフォーマンスと正確性の両方において、既存のスパースアテンションベースラインを上回っている。
論文参考訳（メタデータ） (2025-07-03T20:20:33Z)
Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文参考訳（メタデータ） (2025-04-15T16:00:21Z)
Injecting Adrenaline into LLM Serving: Boosting Resource Utilization and Throughput via Attention Disaggregation [23.130886760027586]
大規模言語モデル(LLM)サービスシステムでは、各要求の実行は、計算集約型プリフィルフェーズとメモリ集約型デコードフェーズの2つのフェーズで構成される。本稿では,資源利用と性能の向上を目的としたアダプティブ・デアグリゲーション・オフロード機構であるアドレナリンを提案する。実験の結果,アドレナリンのメモリ容量は2.28倍,メモリ帯域幅は2.07倍に向上した。
論文参考訳（メタデータ） (2025-03-26T13:48:35Z)
APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。 APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。 APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文参考訳（メタデータ） (2025-02-17T17:59:56Z)
Highly Optimized Kernels and Fine-Grained Codebooks for LLM Inference on Arm CPUs [0.8217552831952]
大きな言語モデル(LLM)は、言語理解と生成に関する考え方を変えました。 LLM量子化によく使われるグループ量子化形式は、計算上のオーバーヘッドとリソース集約型量子化プロセスを持つ。本稿では,LLMの超低精度量子化のためのグループワイド非一様符号ブックに基づく量子化手法を提案する。
論文参考訳（メタデータ） (2024-12-23T03:44:29Z)
Efficient LLM Inference with I/O-Aware Partial KV Cache Recomputation [7.204881999658682]
大規模言語モデル(LLM)の推論は計算的に要求される。自動回帰デコーディングのコストを削減するため、キーバリュー(KV)キャッシングは中間アクティベーションを格納するために使用される。 KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。コスト効率のよい代替手段は、KVキャッシュをCPUメモリにオフロードすることであり、これはGPUメモリの圧力を軽減するが、ボトルネックをCPUとGPU間のPCIe接続の限られた帯域にシフトさせる。
論文参考訳（メタデータ） (2024-11-26T04:03:14Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。 K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention [36.49445805074941]
Minference (Milliontokens Inference) は長周期処理の前処理を高速化するスパース計算法である。我々は,MInferenceが精度を維持しつつ,A100にプリフィルする際の推論遅延を最大10倍に効果的に低減できることを実証した。
論文参考訳（メタデータ） (2024-07-02T17:59:56Z)
BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences [96.74779792715819]
本稿では,BurstAttention'という分散アテンションフレームワークを提案し,メモリアクセスと通信操作を最適化する。異なる長さ設定下での実験結果は、BurstAttentionが長いシーケンスを処理する上で大きな利点があることを示している。
論文参考訳（メタデータ） (2024-03-14T12:51:58Z)
Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文参考訳（メタデータ） (2024-03-13T16:30:57Z)
Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve [9.854130239429487]
高スループットと低レイテンシのトレードオフに対処するため,効率的な推論スケジューラであるSarathi-Serveを導入する。我々の手法は、テール遅延下でのモデルとハードウェア間での推論性能を大幅に改善する。
論文参考訳（メタデータ） (2024-03-04T18:47:08Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
Does Long-Term Series Forecasting Need Complex Attention and Extra Long Inputs? [21.15722677855935]
トランスフォーマーベースのモデルは、様々な時系列タスクにおいて印象的なパフォーマンスを達成した。近年、LTSF(Long-Term Series Forecasting)タスクも注目されている。トランスフォーマーベースの手法を要求される計算複雑性と長いシーケンスのため、LTSFタスクへの適用には2つの大きな問題がある。
論文参考訳（メタデータ） (2023-06-08T08:37:49Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。 We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文参考訳（メタデータ） (2020-11-28T19:21:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。