論文の概要: Staggered Batch Scheduling: Co-optimizing Time-to-First-Token and Throughput for High-Efficiency LLM Inference
- arxiv url: http://arxiv.org/abs/2512.16134v1
- Date: Thu, 18 Dec 2025 03:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.900352
- Title: Staggered Batch Scheduling: Co-optimizing Time-to-First-Token and Throughput for High-Efficiency LLM Inference
- Title(参考訳): Staggered Batch Scheduling:高能率LLM推論のための時間対ファーストトークンとスループットの同時最適化
- Authors: Jian Tian, Shuailong Li, Yang Cao, Wenbo Cui, Minghan Zhu, Wenkang Wu, Jianming Zhang, Yanpeng Wang, Zhiwen Xiao, Zhenyu Hou, Dou Shen,
- Abstract要約: Staggered Batch Scheduling (SBS)はリクエストをバッファして最適な実行バッチを生成する。
Load-Aware Global Allocation戦略は、PrefillとDecodeの両フェーズでDPユニット間で計算負荷のバランスをとる。
我々のシステムはTTFTを30%-40%削減し、最先端の即時スケジューリングベースラインに比べてスループットを15%-20%向上させる。
- 参考スコア(独自算出の注目度): 17.27010833526918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evolution of Large Language Model (LLM) serving towards complex, distributed architectures--specifically the P/D-separated, large-scale DP+EP paradigm--introduces distinct scheduling challenges. Unlike traditional deployments where schedulers can treat instances as black boxes, DP+EP architectures exhibit high internal synchronization costs. We identify that immediate request dispatching in such systems leads to severe in-engine queuing and parallelization bubbles, degrading Time-to-First-Token (TTFT). To address this, we propose Staggered Batch Scheduling (SBS), a mechanism that deliberately buffers requests to form optimal execution batches. This temporal decoupling eliminates internal queuing bubbles without compromising throughput. Furthermore, leveraging the scheduling window created by buffering, we introduce a Load-Aware Global Allocation strategy that balances computational load across DP units for both Prefill and Decode phases. Deployed on a production H800 cluster serving Deepseek-V3, our system reduces TTFT by 30%-40% and improves throughput by 15%-20% compared to state-of-the-art immediate scheduling baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)の進化は、複雑な分散アーキテクチャ(特に、P/D分離された大規模DP+EPパラダイム)に役立っている。
スケジューラがインスタンスをブラックボックスとして扱う従来のデプロイメントとは異なり、DP+EPアーキテクチャは内部同期コストが高い。
このようなシステムでの即時リクエストディスパッチは、厳しいエンジン内キューおよび並列化バブルを引き起こし、TTFT(Time-to-First-Token)を劣化させる。
そこで本研究では,リクエストを意図的にバッファリングして最適な実行バッチを生成する機構であるStaggered Batch Scheduling (SBS)を提案する。
この時間デカップリングはスループットを損なうことなく内部のキューバブルを除去する。
さらに,バッファリングによって生成されるスケジューリングウィンドウを活用することで,計算負荷をDPユニット間でバランスをとるロード・アウェア・グローバル・アロケーション戦略を導入する。
Deepseek-V3を運用するH800クラスタ上にデプロイすることで、TTFTを30%-40%削減し、最先端の即時スケジューリングベースラインと比較してスループットを15%-20%向上させる。
関連論文リスト
- Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - HyperFlexis: Joint Design of Algorithms and Systems for Multi-SLO Serving and Fast Scaling [19.154782641360253]
現代の大規模言語モデル(LLM)が提供するシステムは、さまざまな長さ、優先順位、ステージ固有のサービスレベル目標(SLO)を持つ、高度に可変的な要求からの課題に直面している。
我々は,複数のSLO下でのスケジューリングとスケーリングを協調的に最適化するために,アルゴリズムとシステムレベルのイノベーションを統合した統一LLMサービスシステムHyperFlexisを提案する。
論文 参考訳(メタデータ) (2025-08-21T18:40:20Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Optimal Scheduling Algorithms for LLM Inference: Theory and Practice [6.043830060363904]
本稿では,大規模言語モデル推論システムにおけるルーティングとスケジューリングをモデル化する理論的枠組みを開発する。
スループット向上に不可欠な設計原則として,最適化タイリングと動的リソース割り当ての2つがあげられる。
本稿では,リソース・アウェア・ダイナミック(RAD)スケジューラが軽度条件下でスループットの最適化を実現することを示す。
論文 参考訳(メタデータ) (2025-08-01T18:12:21Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Apt-Serve: Adaptive Request Scheduling on Hybrid Cache for Scalable LLM Inference Serving [22.66354939370058]
Apt-Serveは、大規模言語モデル(LLM)推論サービスシステムにおける効果的なスループットを高めるために設計されたフレームワークである。
新たなハイブリッドキャッシュスキームでは、KVキャッシュとメモリ効率の高い隠れキャッシュを組み合わせることで、再利用可能な入力隠れ状態ベクタを実現し、バッチサイズを大きくし、要求を改善する。
Apt-Serveは,最先端の推論サービスシステムと比較して,スループットが最大8.8倍向上することを示す。
論文 参考訳(メタデータ) (2025-04-10T06:51:23Z) - APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。
APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。
APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文 参考訳(メタデータ) (2025-02-17T17:59:56Z) - GPU Cluster Scheduling for Network-Sensitive Deep Learning [15.926240223625165]
本稿では分散DL(DDL)ワークロードのための新しいGPUクラスタスケジューラを提案する。
我々のスケジューラは、(i)ジョブ配置と統合を容易にする古典的な遅延スケジューリングアルゴリズム、(ii)ネットワークに敏感なジョブプリエンプション戦略、(iii)遅延タイマーを効果的に遅延スケジューリングするために最適化する「自動チューニング」メカニズムの3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2024-01-29T19:06:08Z) - Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文 参考訳(メタデータ) (2021-01-17T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。