論文の概要: HyGen: Efficient LLM Serving via Elastic Online-Offline Request Co-location
- arxiv url: http://arxiv.org/abs/2501.14808v3
- Date: Sun, 09 Feb 2025 11:53:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:23:57.750938
- Title: HyGen: Efficient LLM Serving via Elastic Online-Offline Request Co-location
- Title(参考訳): HyGen: Elastic Online-Offline Request Co-locationによる効率的なLDMサービング
- Authors: Ting Sun, Penghan Wang, Fan Lai,
- Abstract要約: HyGenは、オンラインおよびオフラインワークロードの効率的なコロケーションを可能にする干渉対応LLMサービスシステムである。
運用負荷評価の結果,HyGenのスループットは最大3.87倍,オフラインスループットは5.84倍に向上した。
- 参考スコア(独自算出の注目度): 3.348953136575379
- License:
- Abstract: Large language models (LLMs) have facilitated a wide range of applications with distinct service-level objectives (SLOs), from latency-sensitive online tasks like interactive chatbots to throughput-oriented offline workloads like document summarization. The existing deployment model, which dedicates machines to each workload, simplifies SLO management but often leads to poor resource utilization. This paper introduces HyGen, an interference-aware LLM serving system that enables efficient co-location of online and offline workloads while preserving latency requirements. HyGen incorporates two key innovations: (1) performance control mechanisms, including a latency predictor to estimate batch execution time and an SLO-aware profiler to quantify latency interference, and (2) SLO-aware offline scheduling policies that maximize serving throughput and prevent starvation, without compromising online serving latency. Our evaluation on production workloads shows that HyGen achieves up to 3.87x overall throughput and 5.84x offline throughput gains over online and hybrid serving baselines, respectively, while strictly satisfying latency SLOs.
- Abstract(参考訳): 大きな言語モデル(LLM)は、インタラクティブチャットボットのようなレイテンシに敏感なオンラインタスクから、ドキュメントの要約のようなスループット指向のオフラインワークロードに至るまで、サービスレベルの異なる目的(SLO)を持つ幅広いアプリケーションを容易にしている。
各ワークロードにマシンを集中させる既存のデプロイメントモデルは、SLO管理を単純化するが、リソース利用の低さにつながることが多い。
本稿では、遅延要求を保ちながら、オンラインおよびオフラインワークロードの効率的なコロケーションを可能にする干渉対応LLMサービスシステムであるHyGenを紹介する。
HyGenは,1)バッチ実行時間を推定するレイテンシ予測機構と,レイテンシの干渉を定量化するSLO対応プロファイラ,2)スループットの最大化と飢餓防止を目的としたSLO対応のオフラインスケジューリングポリシ,の2つの重要なイノベーションを取り入れている。
運用負荷に対する評価から,HyGenはオンラインおよびハイブリッドサービスベースラインに対して最大3.87倍のスループットと5.84倍のオフラインスループットを実現し,レイテンシSLOを厳密に満たしていることがわかった。
関連論文リスト
- ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving [15.01982917560918]
本稿では,オフラインLLM推論タスクのためのストランドGPUリソースの抽出を提案する。
我々は、オフラインタスクの実行をプリエンプトする実行エンジンを含むLLMサービスシステムであるConServeを構築した。
オンラインタスクとオフラインタスクの協調作業において,ConServeが強力なパフォーマンス分離を実現することを示す。
論文 参考訳(メタデータ) (2024-10-02T04:12:13Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and
DeepSpeed-Inference [23.49242865222089]
本稿では,最大2.3倍高いスループット,平均2倍のレイテンシ,最大3.7倍のテールレイテンシを実現するシステムであるDeepSpeed-FastGenを紹介する。
我々は、DeepSpeed-MIIとDeepSpeed-Inferenceの相乗的組み合わせを利用して、大規模言語モデルのための効率的で使いやすいサービスシステムを提供する。
論文 参考訳(メタデータ) (2024-01-09T06:49:40Z) - SpotServe: Serving Generative Large Language Models on Preemptible
Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。
SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4~9.1倍削減できることを示す。
また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文 参考訳(メタデータ) (2023-11-27T06:31:17Z) - Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。
FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。
我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z) - Guaranteed Dynamic Scheduling of Ultra-Reliable Low-Latency Traffic via
Conformal Prediction [72.59079526765487]
アップリンクにおける超信頼性・低遅延トラフィック(URLLC)の動的スケジューリングは、既存のサービスの効率を大幅に向上させることができる。
主な課題は、URLLCパケット生成のプロセスにおける不確実性である。
本稿では,URLLC トラフィック予測器の品質に関わらず,信頼性と遅延を保証した新しい URLLC パケットスケジューラを提案する。
論文 参考訳(メタデータ) (2023-02-15T14:09:55Z) - A Graph Neural Networks based Framework for Topology-Aware Proactive SLA
Management in a Latency Critical NFV Application Use-case [0.34376560669160383]
5Gと6Gの最近の進歩は、ネットワークシリーズ(NFV)によって実現される遅延クリティカルなアプリケーションの出現につながっている。
本稿では,グラフニューラルネットワーク(GNN)と深層強化学習(DRL)を活用して,効率性と信頼性のトレードオフをバランスさせる,積極的なSLA管理フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-10T23:22:05Z) - An Intelligent Deterministic Scheduling Method for Ultra-Low Latency
Communication in Edge Enabled Industrial Internet of Things [19.277349546331557]
時間知覚ネットワーク (TSN) は, 決定論的スケジューリングによる低遅延通信を実現するために最近研究されている。
非衝突理論に基づく決定論的スケジューリング (NDS) 法を提案し, 時間に敏感な流れに対する超低遅延通信を実現する。
実験の結果,NDS/DQSは決定論的超低レイテンシサービスを十分にサポートし,帯域幅の有効利用を保証できることがわかった。
論文 参考訳(メタデータ) (2022-07-17T16:52:51Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for
Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。
マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文 参考訳(メタデータ) (2021-06-17T00:01:18Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。