論文の概要: Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve
- arxiv url: http://arxiv.org/abs/2403.02310v1
- Date: Mon, 4 Mar 2024 18:47:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:37:16.404427
- Title: Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve
- Title(参考訳): Sarathi-Serve を用いた LLM 推論におけるスループット-レイテンシトレードオフのモデル化
- Authors: Amey Agrawal, Nitin Kedia, Ashish Panwar, Jayashree Mohan, Nipun
Kwatra, Bhargav S. Gulavani, Alexey Tumanov, Ramachandran Ramjee
- Abstract要約: そこで我々は,Sarathiのスループットを最適化するために提案した手法に着想を得た,効率的なLLM推論スケジューラであるSarathi-Serveを紹介する。
我々の評価によると、Sarathi-Serveは、1つのA100 GPU上で最大2.6倍、OrcaとvLLM上で8A100 GPU上で最大6.9倍のスループットで、Mistral-7Bの所望のレイテンシでのサービススループットを改善する。
- 参考スコア(独自算出の注目度): 10.224703505787692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Each LLM serving request goes through two phases. The first is prefill which
processes the entire input prompt to produce one output token and the second is
decode which generates the rest of output tokens, one-at-a-time. Prefill
iterations have high latency but saturate GPU compute due to parallel
processing of the input prompt. In contrast, decode iterations have low latency
but also low compute utilization because a decode iteration processes only a
single token per request. This makes batching highly effective for decodes and
consequently for overall throughput. However, batching multiple requests leads
to an interleaving of prefill and decode iterations which makes it challenging
to achieve both high throughput and low latency.
We introduce an efficient LLM inference scheduler Sarathi-Serve inspired by
the techniques we originally proposed for optimizing throughput in Sarathi.
Sarathi-Serve leverages chunked-prefills from Sarathi to create stall-free
schedules that can add new requests in a batch without pausing ongoing decodes.
Stall-free scheduling unlocks the opportunity to improve throughput with large
batch sizes while minimizing the effect of batching on latency. Our evaluation
shows that Sarathi-Serve improves serving throughput within desired latency
SLOs of Mistral-7B by up to 2.6x on a single A100 GPU and up to 6.9x for
Falcon-180B on 8 A100 GPUs over Orca and vLLM.
- Abstract(参考訳): 各LSMサービス要求は2段階に分けて行われる。
1つはプリフィルで、入力プロンプト全体を処理して1つの出力トークンを生成し、もう1つは1つの出力トークンを生成するデコードである。
Prefillイテレーションはレイテンシが高いが、入力プロンプトの並列処理によってGPU計算が飽和する。
対照的に、デコードイテレーションはレイテンシが低いが、要求毎に1つのトークンしか処理しないため、計算利用率が低い。
これにより、バッチ処理はデコードに非常に有効になり、結果として全体のスループットが向上する。
しかし、複数のリクエストをバッチ化すると、プリフィルとデコードがインターリーブされ、高いスループットと低レイテンシの両方を達成することが困難になる。
提案手法に触発された効率的なllm推論スケジューラであるsarathi-serveを提案する。
sarathi-serveはsarathiからのチャンクプリフィルを利用してストールフリーのスケジュールを作成し、進行中のデコードを実行することなく、バッチに新しいリクエストを追加できる。
静的なスケジューリングは、バッチ処理がレイテンシに与える影響を最小限に抑えながら、大きなバッチサイズでスループットを改善する機会を解放する。
評価の結果,Sarathi-Serveは1つのA100 GPU上で最大2.6倍,OrcaおよびvLLM上での8A100 GPU上でのFalcon-180Bの最大6.9倍のスループット向上を実現している。
関連論文リスト
- POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。
POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文 参考訳(メタデータ) (2024-10-23T17:06:56Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention [36.49445805074941]
Minference (Milliontokens Inference) は長周期処理の前処理を高速化するスパース計算法である。
我々は,MInferenceが精度を維持しつつ,A100にプリフィルする際の推論遅延を最大10倍に効果的に低減できることを実証した。
論文 参考訳(メタデータ) (2024-07-02T17:59:56Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving [52.31791050376249]
量子化は大規模言語モデル(LLM)の推論を加速させる。
既存のINT4量子化メソッドは、重みや部分和を復号化する場合、実行時の大きなオーバーヘッドに悩まされる。
4ビット重み、8ビットアクティベーション、4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムQoQを導入する。
QServeは、Llama-3-8BをA100で1.2倍、L40Sで1.4倍、Qwen-721.5BをA100で2.4倍、L40Sで3.5倍、達成可能な最大機能を改善する。
論文 参考訳(メタデータ) (2024-05-07T17:59:30Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked
Prefills [9.821549185732199]
大規模言語モデル(LLM)推論は、プリフィルとデコードという2つの異なるフェーズから構成される。
デコードフェーズは、要求毎に1つのトークンを生成するため、低い計算利用率をもたらす。
Chunked-prefillsは、単一のprefillリクエストから複数のdecode-maximalバッチを構築することができる。
提案手法により,モデルおよびハードウェア間での推論性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-08-31T00:03:02Z) - SkipDecode: Autoregressive Skip Decoding with Batching and Caching for
Efficient LLM Inference [17.947904697850433]
バッチ推論とKeyValueキャッシュのためのトークンレベルの早期終了メソッドであるSkipDecodeを提案する。
これは、各シーケンス位置のバッチ内の各トークンに対して特異レベル出口を設定することで、以前の制約を克服する。
また、イグジットポイントの単調な減少を保証するため、前のトークンに対してKVキャッシュを再コンパイルする必要がなくなる。
論文 参考訳(メタデータ) (2023-07-05T19:59:09Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - RSC: Accelerating Graph Neural Networks Training via Randomized Sparse
Computations [56.59168541623729]
トレーニンググラフニューラルネットワーク(GNN)は、疎グラフベースの操作がハードウェアによって加速することが難しいため、時間を要する。
我々は,サンプリングに基づく近似による時間的複雑性を低減するために,計算精度のトレードオフを検討する。
本稿では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:25:33Z) - Parallelising the Queries in Bucket Brigade Quantum RAM [69.43216268165402]
量子アルゴリズムは、しばしばデータベースのような方法で格納された情報にアクセスするために量子RAM(QRAM)を使用する。
本稿では,Clifford+Tゲートの並列性を利用して,効率的なクエリ時間を大幅に短縮する手法を提案する。
理論的には、フォールトトレラントバケットの量子RAMクエリは古典的なRAMの速度とほぼ一致する。
論文 参考訳(メタデータ) (2020-02-21T14:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。