論文の概要: SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked
Prefills
- arxiv url: http://arxiv.org/abs/2308.16369v1
- Date: Thu, 31 Aug 2023 00:03:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 18:08:42.012113
- Title: SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked
Prefills
- Title(参考訳): SARATHI: チャンクプレフィルでデコードにピギーバックを施した効率的なLLM推論
- Authors: Amey Agrawal, Ashish Panwar, Jayashree Mohan, Nipun Kwatra, Bhargav S.
Gulavani, Ramachandran Ramjee
- Abstract要約: 大規模言語モデル(LLM)推論は、プリフィルとデコードという2つの異なるフェーズから構成される。
デコードフェーズは、要求毎に1つのトークンを生成するため、低い計算利用率をもたらす。
Chunked-prefillsは、単一のprefillリクエストから複数のdecode-maximalバッチを構築することができる。
提案手法により,モデルおよびハードウェア間での推論性能が大幅に向上した。
- 参考スコア(独自算出の注目度): 9.821549185732199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) inference consists of two distinct phases -
prefill phase which processes the input prompt and decode phase which generates
output tokens autoregressively. While the prefill phase effectively saturates
GPU compute at small batch sizes, the decode phase results in low compute
utilization as it generates one token at a time per request. The varying
prefill and decode times also lead to imbalance across micro-batches when using
pipeline parallelism, resulting in further inefficiency due to bubbles.
We present SARATHI to address these challenges. SARATHI employs
chunked-prefills, which splits a prefill request into equal sized chunks, and
decode-maximal batching, which constructs a batch using a single prefill chunk
and populates the remaining slots with decodes. During inference, the prefill
chunk saturates GPU compute, while the decode requests 'piggyback' and cost up
to an order of magnitude less compared to a decode-only batch. Chunked-prefills
allows constructing multiple decode-maximal batches from a single prefill
request, maximizing coverage of decodes that can piggyback. Furthermore, the
uniform compute design of these batches ameliorates the imbalance between
micro-batches, significantly reducing pipeline bubbles.
Our techniques yield significant improvements in inference performance across
models and hardware. For the LLaMA-13B model on A6000 GPU, SARATHI improves
decode throughput by up to 10x, and accelerates end-to-end throughput by up to
1.33x. For LLaMa-33B on A100 GPU, we achieve 1.25x higher end-to-end-throughput
and up to 4.25x higher decode throughput. When used with pipeline parallelism
on GPT-3, SARATHI reduces bubbles by 6.29x, resulting in an end-to-end
throughput improvement of 1.91x.
- Abstract(参考訳): 大言語モデル(LLM)推論は、入力プロンプトを処理する2つの異なる位相準備フェーズと、出力トークンを自動回帰的に生成するデコードフェーズから構成される。
プリフィルフェーズはGPU計算を小さなバッチサイズで効果的に飽和させるが、デコードフェーズは要求毎に1つのトークンを生成するため、低い計算利用をもたらす。
プリフィルとデコード時間の変化は、パイプライン並列性を使用する場合のマイクロバッチ間の不均衡を招き、バブルによるさらなる非効率につながる。
これらの課題に対処するためにSARATHIを提示する。
SARATHIはチャンクプレフィルを使用して、プレフィルリクエストを同じサイズのチャンクに分割し、デコード-最大バッチ処理を使用してバッチを構築し、残りのスロットをデコードする。
推論中、プリフィルチャンクはGPU計算を飽和させ、デコードは'piggyback'を要求し、デコードのみのバッチに比べて桁違いのコストがかかる。
Chunked-prefillsは、単一のprefillリクエストから複数のdecode-maximalバッチを構築することができる。
さらに、これらのバッチの均一な計算設計は、マイクロバッチ間の不均衡を改善し、パイプラインバブルを著しく減少させる。
私たちの技術は、モデルとハードウェア間の推論性能を大幅に改善します。
A6000 GPU上のLLaMA-13Bモデルでは、SARATHIはデコードスループットを最大10倍改善し、エンドツーエンドスループットを最大1.33倍高速化する。
A100 GPU上のLLaMa-33Bでは、エンドツーエンドのスループットが1.25倍、デコードスループットが4.25倍になる。
GPT-3でパイプライン並列性を使用する場合、SARATHIはバブルを6.29倍に減らし、エンドツーエンドのスループットは1.91倍に向上する。
関連論文リスト
- POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。
POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文 参考訳(メタデータ) (2024-10-23T17:06:56Z) - Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z) - MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention [36.49445805074941]
Minference (Milliontokens Inference) は長周期処理の前処理を高速化するスパース計算法である。
我々は,MInferenceが精度を維持しつつ,A100にプリフィルする際の推論遅延を最大10倍に効果的に低減できることを実証した。
論文 参考訳(メタデータ) (2024-07-02T17:59:56Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve [9.854130239429487]
高スループットと低レイテンシのトレードオフに対処するため,効率的な推論スケジューラであるSarathi-Serveを導入する。
我々の手法は、テール遅延下でのモデルとハードウェア間での推論性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-04T18:47:08Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Scalable Quantum Error Correction for Surface Codes using FPGA [67.74017895815125]
フォールトトレラントな量子コンピュータは、出現するよりも早くデコードし、エラーを修正する必要がある。
並列計算資源を利用したUnion-Findデコーダの分散バージョンを報告する。
この実装では、並列コンピューティングリソースをハイブリッドツリーグリッド構造に整理する、Heliosと呼ばれるスケーラブルなアーキテクチャを採用している。
論文 参考訳(メタデータ) (2023-01-20T04:23:00Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。