論文の概要: P/D-Serve: Serving Disaggregated Large Language Model at Scale
- arxiv url: http://arxiv.org/abs/2408.08147v1
- Date: Thu, 15 Aug 2024 13:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 13:46:24.767979
- Title: P/D-Serve: Serving Disaggregated Large Language Model at Scale
- Title(参考訳): P/D-Serve: 大規模に分散した大規模言語モデルの実現
- Authors: Yibo Jin, Tao Wang, Huimin Lin, Mingyang Song, Peiyang Li, Yipeng Ma, Yicheng Shan, Zhengfan Yuan, Cailong Li, Yajing Sun, Tiandeng Wu, Xing Chu, Ruizhi Huan, Li Ma, Xiao You, Wenting Zhou, Yunpeng Ye, Wen Liu, Xiangkun Xu, Yongsheng Zhang, Tiantian Dong, Jiawei Zhu, Zhe Wang, Xijian Ju, Jianxun Song, Haoliang Cheng, Xiaojing Li, Jiandong Ding, Hefei Guo, Zhengyong Zhang,
- Abstract要約: 本稿では,MLOpsのパラダイムに準拠したエンドツーエンドシステムP/D-Serveを提案する。
数万基のNPUが商業的に8ヶ月以上使われてきた。
最適化されたE2Eシステムでは、P/D-Serveは集約LDMに比べてスループットが6.7倍向上する。
- 参考スコア(独自算出の注目度): 19.80634566539841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Serving disaggregated large language models (LLMs) over tens of thousands of xPU devices (GPUs or NPUs) with reliable performance faces multiple challenges. 1) Ignoring the diversity (various prefixes and tidal requests), treating all the prompts in a mixed pool is inadequate. To facilitate the similarity per scenario and minimize the inner mismatch on P/D (prefill and decoding) processing, fine-grained organization is required, dynamically adjusting P/D ratios for better performance. 2) Due to inaccurate estimation on workload (queue status or maintained connections), the global scheduler easily incurs unnecessary timeouts in prefill. 3) Block-fixed device-to-device (D2D) KVCache transfer over cluster-level RDMA (remote direct memory access) fails to achieve desired D2D utilization as expected. To overcome previous problems, this paper proposes an end-to-end system P/D-Serve, complying with the paradigm of MLOps (machine learning operations), which models end-to-end (E2E) P/D performance and enables: 1) fine-grained P/D organization, mapping the service with RoCE (RDMA over converged ethernet) as needed, to facilitate similar processing and dynamic adjustments on P/D ratios; 2) on-demand forwarding upon rejections for idle prefill, decoupling the scheduler from regular inaccurate reports and local queues, to avoid timeouts in prefill; and 3) efficient KVCache transfer via optimized D2D access. P/D-Serve is implemented upon Ascend and MindSpore, has been deployed over tens of thousands of NPUs for more than eight months in commercial use, and further achieves 60\%, 42\% and 46\% improvements on E2E throughput, time-to-first-token (TTFT) SLO (service level objective) and D2D transfer time. As the E2E system with optimizations, P/D-Serve achieves 6.7x increase on throughput, compared with aggregated LLMs.
- Abstract(参考訳): 信頼性の高いパフォーマンスを備えた数万のxPUデバイス(GPUやNPU)上で,非集約型の大規模言語モデル(LLM)を実現するには,さまざまな課題が伴う。
1) 多様性(各種の接頭辞, 干潟要求)を無視し, 混合プールにおける全てのプロンプトの処理は不十分である。
シナリオごとの類似性を容易にし、P/D処理における内部ミスマッチを最小化するためには、より優れた性能を得るためにP/D比を動的に調整し、きめ細かな組織が必要である。
2)作業負荷(キュー状態または保守された接続)の不正確な推定のため、グローバルスケジューラはプリフィル時に不要なタイムアウトを簡単に発生させる。
3)ブロック固定デバイス・ツー・デバイス(D2D) クラスタレベルのRDMA(リモートダイレクトメモリアクセス)上でのKVCache転送では,期待どおりのD2D利用が得られない。
本稿では,MLOps(機械学習操作)のパラダイムに従って,エンドツーエンド(E2E)P/D性能をモデル化し,実現可能なエンドツーエンドシステムP/D-Serveを提案する。
1)細粒度P/D組織は、P/D比の類似処理及び動的調整を容易にするため、必要に応じてRoCE(RDMA over converged ethernet)とサービスをマッピングする。
2 アイドル前処理の拒絶によりオンデマンド転送し、定期的な不正確な報告及び現地の待ち行列からスケジューラを分離し、前処理のタイムアウトを回避する。
3) 最適化D2Dアクセスによる効率的なKVCache転送。
P/D-ServeはAscendとMindSpore上に実装され、8ヶ月以上にわたって数万以上のNPUが商用利用され、E2Eスループット、TTFT(Time-to-first-token) SLO(サービスレベルの目的)、D2D転送時間において60\%、42\%、46\%の改善が達成されている。
最適化されたE2Eシステムでは、P/D-Serveは集約LDMに比べてスループットが6.7倍向上する。
関連論文リスト
- Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - LoongServe: Efficiently Serving Long-Context Large Language Models with Elastic Sequence Parallelism [12.521026493432181]
既存の大規模言語モデル(LLM)は、異なるフェーズにおける可変長要求を効率的に提供できない。
本稿では,異なる要求と位相の分散に対応するために,新しい並列性パラダイムである弾性列並列性(ESP)を提案する。
LoongServeは、チャンクプレフィルと比較して最大スループットを最大3.85$times$、プリフィルデコードデアグリゲーションと比較して5.81$times$に改善する。
論文 参考訳(メタデータ) (2024-04-15T07:45:04Z) - E2USD: Efficient-yet-effective Unsupervised State Detection for Multivariate Time Series [18.02694168117277]
本稿では,効率的な非教師付き状態検出を可能にするE2Usdを提案する。
E2UsdはFast Fourier TransformベースのTime SeriesとDecomposed Dual-view Embedding Moduleを利用している。
また,偽陰性の影響を抑えるために,偽陰性キャンセレーションコントラスト学習法を提案する。
論文 参考訳(メタデータ) (2024-02-21T10:16:57Z) - SuperServe: Fine-Grained Inference Serving for Unpredictable Workloads [18.461201610784077]
ML推論サービスシステムは、アプリケーションのレイテンシと精度要件のバランスをとる必要がある。
SubNetActは、レイテンシーと精度のトレードオフ空間にまたがるあらゆるモデルに対して同時に機能することを示す。
SubNetActは、従来の最先端モデルよりもはるかに多くのモデルを提供するために、最大2.6倍のメモリを必要とすることを示す。
論文 参考訳(メタデータ) (2023-12-27T22:24:11Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - CPGNet: Cascade Point-Grid Fusion Network for Real-Time LiDAR Semantic
Segmentation [8.944151935020992]
本稿では,有効性と効率を両立するカスケードポイントグリッド融合ネットワーク(CPGNet)を提案する。
アンサンブルモデルやTTAのないCPGNetは最先端のRPVNetと同等だが、4.7倍高速である。
論文 参考訳(メタデータ) (2022-04-21T06:56:30Z) - Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。
最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。
提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文 参考訳(メタデータ) (2021-11-26T18:44:59Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Dense Dual-Path Network for Real-time Semantic Segmentation [7.8381744043673045]
本稿では,資源制約下でのリアルタイムセマンティックセグメンテーションのための新しいDual-Path Network(DDPNet)を提案する。
DDPNetは、GTX 1080Tiカードの1024 X 2048解像度の入力に対して52.6 FPSで75.3% mIoUを達成した。
論文 参考訳(メタデータ) (2020-10-21T06:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。