論文の概要: Ascendra: Dynamic Request Prioritization for Efficient LLM Serving
- arxiv url: http://arxiv.org/abs/2504.20828v2
- Date: Wed, 30 Apr 2025 14:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.94532
- Title: Ascendra: Dynamic Request Prioritization for Efficient LLM Serving
- Title(参考訳): Ascendra: 効率的なLLM実行のための動的リクエスト優先順位付け
- Authors: Azam Ikram, Xiang Li, Sameh Elnikety, Saurabh Bagchi,
- Abstract要約: 本稿では,TTFT と TBT SLO を同時に対応させる LLM サービスシステム Ascendra について紹介する。
AscentraはGPUリソースを、低優先度と高優先度の2つのタイプのインスタンスに分割する。
高優先度インスタンスは低レイテンシ実行に最適化され、期限近くで緊急リクエストを処理する。
- 参考スコア(独自算出の注目度): 9.339195722919316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) has driven the need for more efficient serving strategies. In this context, efficiency refers to the proportion of requests that meet their Service Level Objectives (SLOs), particularly for Time To First Token (TTFT) and Time Between Tokens (TBT). However, existing systems often prioritize one metric at the cost of the other. We present Ascendra, an LLM serving system designed to meet both TTFT and TBT SLOs simultaneously. The core insight behind Ascendra is that a request's urgency evolves as it approaches its deadline. To leverage this, Ascendra partitions GPU resources into two types of instances: low-priority and high-priority. Low-priority instances maximize throughput by processing requests out of arrival order, but at the risk of request starvation. To address this, Ascendra employs a performance model to predict requests at risk of missing their SLOs and proactively offloads them to high-priority instances. High-priority instances are optimized for low-latency execution and handle urgent requests nearing their deadlines. This partitioned architecture enables Ascendra to effectively balance high throughput and low latency. Extensive evaluation shows that Ascendra improves system throughput by up to 1.7x compared to vLLM and Sarathi-Serve while meeting both TTFT and TBT SLOs.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩により、より効率的なサービス戦略の必要性が高まっている。
この文脈では、効率性はサービスレベルオブジェクト(SLO)、特にTTFT(Time To First Token)とTBT(Time Between Tokens)の要求の割合を指す。
しかし、既存のシステムは、1つのメトリクスを他のメトリクスのコストで優先順位付けすることが多い。
本稿では,TTFT と TBT SLO を同時に対応させる LLM サービスシステム Ascendra について紹介する。
Ascendraの背後にある中核的な洞察は、要求の緊急性が期限に近づくにつれて進化するということです。
これを活用するためにAscendraは、GPUリソースを低優先度と高優先度の2つのタイプのインスタンスに分割する。
低優先度のインスタンスは、到着順序から要求を処理することでスループットを最大化するが、要求の飢餓のリスクがある。
これを解決するため、Ascendraはパフォーマンスモデルを使用して、SLOを欠くリスクのある要求を予測し、積極的に高優先度インスタンスにオフロードする。
高優先度インスタンスは低レイテンシ実行に最適化され、期限近くで緊急リクエストを処理する。
このパーティショニングアーキテクチャにより、Ascendraは高スループットと低レイテンシを効果的にバランスできる。
Ascendra のシステムスループットは vLLM と Sarathi-Serve と比較して最大 1.7 倍向上し,TTFT と TBT SLO の両方に対応している。
関連論文リスト
- HELIOS: Adaptive Model And Early-Exit Selection for Efficient LLM Inference Serving [5.698111842478072]
初期のLLMは、後のモデルレイヤをスキップすることで、このトレードオフ空間を効率的にナビゲートします。
現在のフレームワークでは、ユーザタスクのモデルが静的に選択され、入力クエリの性質の変化に適応する能力が制限されます。
まず、HELIOSショートリストは、候補LLMの集合をリストし、プロンプトのサブセットを用いて評価し、テレメトリデータをリアルタイムで収集する。
第2に、HELIOSはこれらの評価から得られた早期出口データを使用して、選択したモデルを限られた数の層に限定的にロードする。
論文 参考訳(メタデータ) (2025-04-14T21:30:43Z) - Apt-Serve: Adaptive Request Scheduling on Hybrid Cache for Scalable LLM Inference Serving [22.66354939370058]
Apt-Serveは、大規模言語モデル(LLM)推論サービスシステムにおける効果的なスループットを高めるために設計されたフレームワークである。
新たなハイブリッドキャッシュスキームでは、KVキャッシュとメモリ効率の高い隠れキャッシュを組み合わせることで、再利用可能な入力隠れ状態ベクタを実現し、バッチサイズを大きくし、要求を改善する。
Apt-Serveは,最先端の推論サービスシステムと比較して,スループットが最大8.8倍向上することを示す。
論文 参考訳(メタデータ) (2025-04-10T06:51:23Z) - FastSwitch: Optimizing Context Switching Efficiency in Fairness-aware Large Language Model Serving [2.5833506260502306]
既存のシステムはスループットを過度に優先順位付けし、プリエンプションによって引き起こされるコンテキストスイッチによって引き起こされるオーバーヘッドを見渡す傾向がある。
FastSwitchは、既存のKVキャッシュメモリ割り当てポリシーに適合するだけでなく、コンテキストスイッチングオーバーヘッドを軽減するフェアネス対応のサービスシステムである。
我々の評価によると、FastSwitchは最先端のLLMサービスシステムであるvLLMよりも、尾部TTFTとTBTで1.4-11.2xの高速化を実現している。
論文 参考訳(メタデータ) (2024-11-27T15:07:28Z) - ALISE: Accelerating Large Language Model Serving with Speculative Scheduling [7.367068885621016]
大規模言語モデル(LLM)は、現代の人工知能(AGI)の展望における革命的な進歩を表している。
本稿では, ALISE という新しい効率的な LLM 推論サービスフレームワークを提案する。
ALISEは,AlpacaデータセットとShareGPTデータセットと同じレイテンシ制約の下で,最大1.8xと2.1xの推論処理のスループットを向上することを示す。
論文 参考訳(メタデータ) (2024-10-31T00:58:11Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Llumnix: Dynamic Scheduling for Large Language Model Serving [17.919408899409113]
大規模言語モデル(LLM)に対する推論は、その可能性を解き放つ鍵である。
Llumnixは、実行時再スケジューリングによって、不均一で予測不能な要求に応答するLLMサービスシステムである。
Llumnixはテールレイテンシを桁違いに改善し,高優先度要求を最大1.5倍高速化し,最大36%のコスト削減を実現している。
論文 参考訳(メタデータ) (2024-06-05T13:20:18Z) - Client Orchestration and Cost-Efficient Joint Optimization for
NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。
提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-03T13:34:44Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Continuous-Time and Multi-Level Graph Representation Learning for
Origin-Destination Demand Prediction [52.0977259978343]
本稿では,原位置需要予測(CMOD)のための連続時間および多段階動的グラフ表現学習法を提案する。
状態ベクトルは、過去のトランザクション情報を保持し、最近発生したトランザクションに従って継続的に更新される。
北京地下鉄とニューヨークタクシーの2つの実世界のデータセットを用いて実験を行い、そのモデルが最先端のアプローチに対して優れていることを実証した。
論文 参考訳(メタデータ) (2022-06-30T03:37:50Z) - Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文 参考訳(メタデータ) (2021-01-17T03:45:25Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。