論文の概要: AugServe: Adaptive Request Scheduling for Augmented Large Language Model Inference Serving
- arxiv url: http://arxiv.org/abs/2512.04013v1
- Date: Wed, 03 Dec 2025 17:49:38 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:02:31.461871
- Title: AugServe: Adaptive Request Scheduling for Augmented Large Language Model Inference Serving
- Title(参考訳): AugServe: 拡張された大規模言語モデル推論のアダプティブリクエストスケジューリング
- Authors: Ying Wang, Zhen Jin, Jiexiong Xu, Wenhai Lin, Yiquan Chen, Wenzhi Chen,
- Abstract要約: AugServeは、待ち時間を削減するとともに、拡張大型言語モデル(LLM)の効率的なスループットを向上させるために設計された効率的な推論フレームワークである。
実験の結果、AugServeはvLLMとInferCeptよりも4.7-33.1xと3.3-13.2x高いスループットを実現し、変動するTTFTを最大96.3%、95.0%削減した。
- 参考スコア(独自算出の注目度): 6.505016440664893
- License:
- Abstract: As augmented large language models (LLMs) with external tools become increasingly popular in web applications, improving augmented LLM inference serving efficiency and optimizing service-level objectives (SLOs) are critical for enhancing user experience. To achieve this, inference systems must maximize request handling within latency constraints, referred to as increasing effective throughput. However, existing systems face two major challenges: (i) reliance on first-come-first-served (FCFS) scheduling causes severe head-of-line blocking, leading to queuing delays exceeding the SLOs for many requests; and (ii) static batch token limit, which fails to adapt to fluctuating loads and hardware conditions. Both of these factors degrade effective throughput and service quality. This paper presents AugServe, an efficient inference framework designed to reduce queueing latency and enhance effective throughput for augmented LLM inference services. The core idea of AugServe is a two-stage adaptive request scheduling strategy. Specifically, AugServe combines the inference features of augmented LLM requests to optimize the order of scheduling decisions (stage I). These decisions are continuously refined with runtime information (stage II), adapting to both request characteristics and system capabilities. In addition, AugServe dynamically adjusts the token batching mechanism based on hardware status and real-time load, further enhancing throughput performance. Experimental results show that AugServe achieves 4.7-33.1x and 3.3-13.2x higher effective throughput than vLLM and InferCept, while reducing time-to-first-token (TTFT) by up to 96.3% and 95.0%, respectively.
- Abstract(参考訳): 外部ツールを備えた拡張大型言語モデル(LLM)がWebアプリケーションでますます普及するにつれて、拡張LLM推論の効率向上とサービスレベルの目的(SLO)の最適化がユーザエクスペリエンスの向上に不可欠である。
これを実現するために、推論システムは、効率的なスループットの増大と呼ばれる遅延制約内でのリクエスト処理を最大化する必要がある。
しかし、既存のシステムは2つの大きな課題に直面している。
i) ファースト・カム・ファースト・サービス(FCFS)スケジューリングに依存すると、ライン・オブ・ライン・ブロッキングが深刻になり、多くのリクエストに対してSLOを超える遅延がキューされる。
(ii) 静的バッチトークン制限は、変動する負荷やハードウェア条件に適応できない。
これらの要因はどちらも、効果的なスループットとサービス品質を低下させます。
本稿では、待ち行列の待ち時間を削減するとともに、LLM推論サービスの効率的なスループットを向上させるために設計された効率的な推論フレームワークであるAugServeを提案する。
AugServeの中核となるアイデアは、2段階のアダプティブリクエストスケジューリング戦略である。
具体的には、AugServeは拡張LDMリクエストの推論機能を組み合わせて、スケジューリング決定の順序(ステージI)を最適化する。
これらの決定は実行時情報(ステージII)で継続的に洗練され、要求特性とシステム機能の両方に適応する。
さらに、AugServeはハードウェアステータスとリアルタイムロードに基づいてトークンバッチ機構を動的に調整し、スループット性能をさらに向上する。
実験の結果、AugServeはvLLMとInferCeptよりも4.7-33.1xと3.3-13.2x高いスループットを実現し、TTFTを最大96.3%、95.0%削減した。
関連論文リスト
- Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-24T08:46:36Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - HyperFlexis: Joint Design of Algorithms and Systems for Multi-SLO Serving and Fast Scaling [19.154782641360253]
現代の大規模言語モデル(LLM)が提供するシステムは、さまざまな長さ、優先順位、ステージ固有のサービスレベル目標(SLO)を持つ、高度に可変的な要求からの課題に直面している。
我々は,複数のSLO下でのスケジューリングとスケーリングを協調的に最適化するために,アルゴリズムとシステムレベルのイノベーションを統合した統一LLMサービスシステムHyperFlexisを提案する。
論文 参考訳(メタデータ) (2025-08-21T18:40:20Z) - Adaptive Request Scheduling for CodeLLM Serving with SLA Guarantees [6.110847503516972]
既存の大規模言語モデル(CodeMs)は、現代のソフトウェア開発にますます統合されています。
しかし、セルフホスト環境は、リソース制約のあるサービス環境において重要な課題である。
要求毎のSLAの実現可能性と意思決定をリアルタイムで予測する動的戦略であるSABERを提案する。
以上の結果から,SLAを意識した適応スケジューリングが,堅牢で高性能なCodeLL提供の鍵となることを示す。
論文 参考訳(メタデータ) (2025-06-24T14:44:33Z) - Apt-Serve: Adaptive Request Scheduling on Hybrid Cache for Scalable LLM Inference Serving [22.66354939370058]
Apt-Serveは、大規模言語モデル(LLM)推論サービスシステムにおける効果的なスループットを高めるために設計されたフレームワークである。
新たなハイブリッドキャッシュスキームでは、KVキャッシュとメモリ効率の高い隠れキャッシュを組み合わせることで、再利用可能な入力隠れ状態ベクタを実現し、バッチサイズを大きくし、要求を改善する。
Apt-Serveは,最先端の推論サービスシステムと比較して,スループットが最大8.8倍向上することを示す。
論文 参考訳(メタデータ) (2025-04-10T06:51:23Z) - AdaServe: Accelerating Multi-SLO LLM Serving with SLO-Customized Speculative Decoding [12.106234303559571]
本稿では,SLO-customized Speculative Decodingによる効率的なマルチSLOサービスを支援するために設計された,最初のサービスシステムであるAdaServeを紹介する。
AdaServeは制約付き最適化問題として機能するマルチSLOを定式化し、ハードウェア対応アルゴリズムを導入した。
システムスループットを最大化しつつ、復号速度のきめ細かい制御を可能にする推測-検証パイプラインを備えている。
論文 参考訳(メタデータ) (2025-01-21T14:15:01Z) - ConServe: Fine-Grained GPU Harvesting for LLM Online and Offline Co-Serving [61.35068981176018]
ConServeは、高いスループットと強力なオンラインレイテンシ保証を実現する大規模言語モデル(LLM)サービスシステムである。
我々は,ConServeが平均2.2$times$高スループットを実現し,オンラインサービステールのレイテンシを最先端システムと比較して平均2.9$times$削減することを示した。
論文 参考訳(メタデータ) (2024-10-02T04:12:13Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。