論文の概要: CSPS: A Communication-Efficient Sequence-Parallelism based Serving System for Transformer based Models with Long Prompts
- arxiv url: http://arxiv.org/abs/2409.15104v1
- Date: Mon, 23 Sep 2024 15:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 14:33:51.557010
- Title: CSPS: A Communication-Efficient Sequence-Parallelism based Serving System for Transformer based Models with Long Prompts
- Title(参考訳): CSPS:長周期変圧器モデルのための通信効率の良い逐次並列型サービングシステム
- Authors: Zeyu Zhang, Haiying Shen,
- Abstract要約: LLM (Long-sequence Generative Large-Language Model) が普及している。
提案手法は, 逐次チャンク処理により, TTFT (TimeToFirstToken) が高い結果が得られた。
本稿では,テンソル並列性(TP)と非TPの2つのアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 11.194752361478567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-sequence generative large-language model (LLM) applications have become increasingly popular. In this paper, through trace-based experiments, we found that the existing method for long sequences results in a high Time-To-First-Token (TTFT) due to sequential chunk processing, long Time-Between-Tokens (TBT) from batching long-sequence prefills and decodes, and low throughput due to constrained key-value cache (KVC) for long sequences. To address these issues, we propose two Sequence-Parallelism (SP) architectures for both tensor parallelism (TP) and non-TP. However, SP introduces two challenges: 1) network communication and computation become performance bottlenecks; 2) the latter two issues above are mitigated but not resolved, and SP's resultant KV value distribution across GPUs still requires communication for decode, increasing TBT. Hence, we propose a Communication-efficient Sparse Attention (CSA) and communication-computation-communication three-phase pipelining. We also propose SP-based decode that processes decode separately from prefill, distributes KV values of a request across different GPUs, and novelly moves Query (Q) values instead of KV values to reduce communication overhead. These methods constitute a communication-efficient Sequence-Parallelism based LLM Serving System (SPS2). Our trace-driven evaluation demonstrates that SPS2 improves the average TTFT, TBT, and response time by up to 7.5x, 1.92x, and 9.8x and improves the prefill and decode throughput by 8.2x and 5.2x while maintaining the accuracy compared to Sarathi-Serve. We distributed our source code.
- Abstract(参考訳): LLM (Long-sequence Generative Large-Language Model) が普及している。
本稿では, トレースに基づく実験により, 連続チャンク処理によるTTFT(Time-To-First-Token) , 長周期プリフィルと復号のバッチ化によるTBT(Time-Between-Tokens) , 長いシーケンスに対する制約付きキー値キャッシュ(KVC) による低スループットが得られた。
これらの問題に対処するために、テンソル並列性(TP)と非TPの2つの逐次並列性(SP)アーキテクチャを提案する。
しかしながら、SPは2つの課題を紹介している。
1)ネットワーク通信と計算がパフォーマンスボトルネックとなる。
2) 上記の2つの問題は緩和されているが解決されていない。また、SPの結果としてGPU間でのKV値の分散にはデコードのための通信が必要であり、TBTが増加する。
そこで本稿では,通信効率の高いスパースアテンション(CSA)と通信通信三相パイプラインを提案する。
また、プリフィルから分離してデコードを処理するSPベースのデコードを提案し、異なるGPU間で要求のKV値を分配し、KV値の代わりにクエリ(Q)値を新規に移動して通信オーバーヘッドを低減する。
これらの方法は、通信効率の良いシーケンス・並列性に基づくLLMサービングシステム(SPS2)を構成する。
SPS2は平均TTFT,TBT,応答時間を7.5倍,1.92倍,9.8倍に改善し,Sarathi-Serveと比較して精度を維持しつつ,プリフィルおよびデコードスループットを8.2倍,5.2倍に改善した。
私たちはソースコードを配布した。
関連論文リスト
- POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。
POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文 参考訳(メタデータ) (2024-10-23T17:06:56Z) - Modelling Concurrent RTP Flows for End-to-end Predictions of QoS in Real Time Communications [5.159808922904932]
本稿では,QoS(Quality of Service)メトリクスを予測するための新しいディープラーニングフレームワークであるPacket-to-Prediction (P2P)を提案する。
我々は,無制限のRTPフローを処理可能な合理化アーキテクチャを実装し,マルチタスク学習パラダイムを用いて4つの重要なメトリクスを1ショットで予測する。
我々の研究は、実ビデオ通話中に収集された広範囲なトラフィックに基づいており、P2Pは予測性能と時間効率の両方で比較モデルに優れています。
論文 参考訳(メタデータ) (2024-10-21T10:16:56Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models [59.16287352266203]
本稿では,テキスト・ツー・イメージ(T2I)拡散モデルのための新しいプロンプトベースのプルーニング手法であるAdaptive Prompt-Tailored Pruning (APTP)を紹介する。
APTPは入力テキストプロンプトに必要な容量を決定することを学び、それをアーキテクチャコードにルーティングする。
APTPはFID、CLIP、CMMDスコアの点でシングルモデルプルーニングベースラインを上回っている。
論文 参考訳(メタデータ) (2024-06-17T19:22:04Z) - USP: A Unified Sequence Parallelism Approach for Long Context Generative AI [1.973144426163543]
シーケンス並列性(SP)は、生成AIモデルの長期コンテキスト機能をアンロックする鍵となっている。
本稿では,最先端SPアプローチ,すなわちDeepSpeed-UlyssesとRing-Attentionについて検討し,統一SPアプローチを提案する。
LLAMA3-8BモデルトレーニングにSPを用いた2つの8xA800ノードに対して,シーケンス長208Kを用いた47%のMFUを達成した。
論文 参考訳(メタデータ) (2024-05-13T13:08:02Z) - LoongServe: Efficiently Serving Long-Context Large Language Models with Elastic Sequence Parallelism [12.521026493432181]
既存の大規模言語モデル(LLM)は、異なるフェーズにおける可変長要求を効率的に提供できない。
本稿では,異なる要求と位相の分散に対応するために,新しい並列性パラダイムである弾性列並列性(ESP)を提案する。
LoongServeは、チャンクプレフィルと比較して最大スループットを最大3.85$times$、プリフィルデコードデアグリゲーションと比較して5.81$times$に改善する。
論文 参考訳(メタデータ) (2024-04-15T07:45:04Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。
本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme
Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。
DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。
実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文 参考訳(メタデータ) (2023-09-25T20:15:57Z) - Fully-Connected Spatial-Temporal Graph for Multivariate Time-Series Data [50.84488941336865]
完全時空間グラフニューラルネットワーク(FC-STGNN)という新しい手法を提案する。
グラフ構築のために、時間的距離に基づいて、すべてのタイムスタンプにセンサーを接続する減衰グラフを設計する。
グラフ畳み込みのために,移動プールGNN層を用いたFCグラフ畳み込みを考案し,ST依存性を効果的に把握し,効率的な表現を学習する。
論文 参考訳(メタデータ) (2023-09-11T08:44:07Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。