論文の概要: PecSched: Preemptive and Efficient Cluster Scheduling for LLM Inference
- arxiv url: http://arxiv.org/abs/2409.15104v2
- Date: Sun, 08 Jun 2025 20:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:09.026994
- Title: PecSched: Preemptive and Efficient Cluster Scheduling for LLM Inference
- Title(参考訳): PecSched: LLM推論のためのプリエンプティブで効率的なクラスタスケジューリング
- Authors: Zeyu Zhang, Haiying Shen,
- Abstract要約: 既存のクラスタレベルのLLMスケジューリング戦略は主に2K以下のショートインプット要求をターゲットとしている。
プリエンプティブで効率的なクラスタレベルのLLM推論スケジューラであるPecSchedを提案する。
PecSchedは,99%の待ち行列遅延を最大92%削減し,スループットを最大595%向上することを示す。
- 参考スコア(独自算出の注目度): 11.194752361478567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scaling of transformer-based Large Language Models (LLMs) has significantly expanded their context lengths, enabling applications where inputs exceed 100K tokens. Our analysis of a recent Azure LLM inference trace reveals a highly skewed long-tail distribution of input lengths, with approximately 80% of inputs shorter than 2K tokens. Long inputs constitute only a small fraction. Existing cluster-level LLM scheduling strategies, including First-In-First-Out (FIFO), reservation-based, and priority-based approaches, primarily target short-input requests with lengths below 2K and fail to address this heterogeneity, leading to inefficiencies such as head-of-line blocking, resource underutilization, and starvation of long-input requests. We propose PecSched, a Preemptive and Efficient Cluster SCHEDuling system for LLM inference. PecSched introduces the following key techniques: 1) preemptive scheduling that prioritizes short-input requests for their performance; 2) coordinated prefill-decode colocation and disaggregation, which reduces both the duration and frequency of preemptions; 3) fast Sequence Parallelism (SP) that minimizes the prefill time of long-input requests to further reduce the likelihood and frequency of preemptions. Evaluations based on Azure LLM inference trace show that, compared to state-of-the-art cluster-level LLM inference schedulers, PecSched reduces the 99th percentile queueing delay of short-input requests by up to 92% and improves their throughput by up to 595%, without significantly affecting the Job Completion Time (JCT) of long-input requests. We open-sourced our code.
- Abstract(参考訳): 変換器をベースとしたLarge Language Models (LLM) のスケーリングは、コンテキスト長を大幅に拡張し、入力が100Kトークンを超えるアプリケーションを可能にした。
最近のAzure LLM推論トレースの解析により、2Kトークンよりも入力の約80%短い入力長のスキュード長テール分布が明らかになった。
長い入力はごくわずかである。
First-In-First-Out (FIFO)、予約ベース、優先度ベースのアプローチを含む、既存のクラスタレベルのLCMスケジューリング戦略は、主に2K未満の長さのショートインプットリクエストをターゲットとしており、この不均一性に対処できず、ヘッド・オブ・ライン・ブロッキング、リソース不使用、長いインプットリクエストの飢餓といった非効率に繋がる。
LLM推論のためのプリエンプティブで効率的なクラスタSCHEDulingシステムであるPecSchedを提案する。
PecSchedは以下の重要なテクニックを紹介している。
1) ショートインプット要求を優先するプリエンプティブスケジューリング
2 プリフィル・デコード・コロケーション及びデアグリゲーションの調整により、プリエンプションの期間及び頻度を短縮する。
3) 高速シーケンス並列性(SP)は、長時間の要求のプリフィル時間を最小限に抑え、プリエンプションの可能性と頻度をさらに減らす。
Azure LLM推論トレースに基づく評価によると、最先端のクラスタレベルのLCM推論スケジューラと比較して、PecSchedは、ショートインプットリクエストの99パーセントキューの遅延を最大92%削減し、スループットを最大595%改善する。
コードをオープンソースにしました。
関連論文リスト
- Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。
POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文 参考訳(メタデータ) (2024-10-23T17:06:56Z) - Modelling Concurrent RTP Flows for End-to-end Predictions of QoS in Real Time Communications [5.159808922904932]
本稿では,QoS(Quality of Service)メトリクスを予測するための新しいディープラーニングフレームワークであるPacket-to-Prediction (P2P)を提案する。
我々は,無制限のRTPフローを処理可能な合理化アーキテクチャを実装し,マルチタスク学習パラダイムを用いて4つの重要なメトリクスを1ショットで予測する。
我々の研究は、実ビデオ通話中に収集された広範囲なトラフィックに基づいており、P2Pは予測性能と時間効率の両方で比較モデルに優れています。
論文 参考訳(メタデータ) (2024-10-21T10:16:56Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models [59.16287352266203]
本稿では,テキスト・ツー・イメージ(T2I)拡散モデルのための新しいプロンプトベースのプルーニング手法であるAdaptive Prompt-Tailored Pruning (APTP)を紹介する。
APTPは入力テキストプロンプトに必要な容量を決定することを学び、それをアーキテクチャコードにルーティングする。
APTPはFID、CLIP、CMMDスコアの点でシングルモデルプルーニングベースラインを上回っている。
論文 参考訳(メタデータ) (2024-06-17T19:22:04Z) - USP: A Unified Sequence Parallelism Approach for Long Context Generative AI [1.973144426163543]
シーケンス並列性(SP)は、生成AIモデルの長期コンテキスト機能をアンロックする鍵となっている。
本稿では,最先端SPアプローチ,すなわちDeepSpeed-UlyssesとRing-Attentionについて検討し,統一SPアプローチを提案する。
LLAMA3-8BモデルトレーニングにSPを用いた2つの8xA800ノードに対して,シーケンス長208Kを用いた47%のMFUを達成した。
論文 参考訳(メタデータ) (2024-05-13T13:08:02Z) - LoongServe: Efficiently Serving Long-Context Large Language Models with Elastic Sequence Parallelism [12.521026493432181]
既存の大規模言語モデル(LLM)は、異なるフェーズにおける可変長要求を効率的に提供できない。
本稿では,異なる要求と位相の分散に対応するために,新しい並列性パラダイムである弾性列並列性(ESP)を提案する。
LoongServeは、チャンクプレフィルと比較して最大スループットを最大3.85$times$、プリフィルデコードデアグリゲーションと比較して5.81$times$に改善する。
論文 参考訳(メタデータ) (2024-04-15T07:45:04Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。
本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme
Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。
DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。
実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文 参考訳(メタデータ) (2023-09-25T20:15:57Z) - Fully-Connected Spatial-Temporal Graph for Multivariate Time-Series Data [50.84488941336865]
完全時空間グラフニューラルネットワーク(FC-STGNN)という新しい手法を提案する。
グラフ構築のために、時間的距離に基づいて、すべてのタイムスタンプにセンサーを接続する減衰グラフを設計する。
グラフ畳み込みのために,移動プールGNN層を用いたFCグラフ畳み込みを考案し,ST依存性を効果的に把握し,効率的な表現を学習する。
論文 参考訳(メタデータ) (2023-09-11T08:44:07Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。