Fugu-MT 論文翻訳(概要): Llumnix: Dynamic Scheduling for Large Language Model Serving

論文の概要: Llumnix: Dynamic Scheduling for Large Language Model Serving

arxiv url: http://arxiv.org/abs/2406.03243v1
Date: Wed, 5 Jun 2024 13:20:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 19:34:24.449600
Title: Llumnix: Dynamic Scheduling for Large Language Model Serving
Title（参考訳）: Llumnix: 大規模言語モデルの実行のための動的スケジューリング
Authors: Biao Sun, Ziming Huang, Hanyu Zhao, Wencong Xiao, Xinyi Zhang, Yong Li, Wei Lin,
Abstract要約: 大規模言語モデル(LLM)に対する推論は、その可能性を解き放つ鍵である。 Llumnixは、実行時再スケジューリングによって、不均一で予測不能な要求に応答するLLMサービスシステムである。 Llumnixはテールレイテンシを桁違いに改善し,高優先度要求を最大1.5倍高速化し,最大36%のコスト削減を実現している。
参考スコア（独自算出の注目度）: 17.919408899409113
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Inference serving for large language models (LLMs) is the key to unleashing their potential in people's daily lives. However, efficient LLM serving remains challenging today because the requests are inherently heterogeneous and unpredictable in terms of resource and latency requirements, as a result of the diverse applications and the dynamic execution nature of LLMs. Existing systems are fundamentally limited in handling these characteristics and cause problems such as severe queuing delays, poor tail latencies, and SLO violations. We introduce Llumnix, an LLM serving system that reacts to such heterogeneous and unpredictable requests by runtime rescheduling across multiple model instances. Similar to context switching across CPU cores in modern operating systems, Llumnix reschedules requests to improve load balancing and isolation, mitigate resource fragmentation, and differentiate request priorities and SLOs. Llumnix implements the rescheduling with an efficient and scalable live migration mechanism for requests and their in-memory states, and exploits it in a dynamic scheduling policy that unifies the multiple rescheduling scenarios elegantly. Our evaluations show that Llumnix improves tail latencies by an order of magnitude, accelerates high-priority requests by up to 1.5x, and delivers up to 36% cost savings while achieving similar tail latencies, compared against state-of-the-art LLM serving systems. Llumnix is publicly available at https://github.com/AlibabaPAI/llumnix.
Abstract（参考訳）: 大規模言語モデル(LLM)に対する推論は、人々の日常生活における潜在能力を解放する鍵となる。しかし、リソース要件やレイテンシ要件の点で要求が本質的に不均一で予測できないため、多様なアプリケーションとLLMの動的実行特性の結果として、効率的なLLM提供は依然として困難である。既存のシステムは、これらの特性を扱うのに基本的に制限されており、厳しいキューの遅延、尾の遅延の低さ、SLO違反などの問題を引き起こす。 Llumnixは、複数のモデルインスタンスにまたがる実行時再スケジューリングによって、不均一で予測不能な要求に応答するLLMサービスシステムである。現代のオペレーティングシステムのCPUコア間のコンテキストスイッチと同様に、Llumnixはリクエストを再スケジュールし、ロードバランシングとアイソレーションを改善し、リソースのフラグメンテーションを緩和し、リクエスト優先順位とSLOを区別する。 Llumnixは、リクエストとそのインメモリ状態に対する効率的でスケーラブルなライブマイグレーションメカニズムでリスケジュールを実装し、複数のリスケジュールシナリオをエレガントに統一する動的スケジューリングポリシでそれを活用している。評価の結果,Llumnixはテールレイテンシを桁違いに改善し,高優先度要求を最大1.5倍高速化し,類似のテールレイテンシを実現しつつ36%のコスト削減を実現した。 Llumnixはhttps://github.com/AlibabaPAI/llumnixで公開されている。

関連論文リスト

Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation [50.22481337087162]
Referring Video Object (RVOS) は、テキストクエリに基づくビデオ内のオブジェクトのセグメンテーションを目的としている。 Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
論文参考訳（メタデータ） (2026-02-03T14:48:12Z)
HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network [50.33808558714122]
エッジでの大規模言語モデル(LLM)推論は、ユーザのプライバシを保護すると同時に、サービスの応答性を促進する。損失エッジネットワークにおける分散LLM推論を向上する新しいフレームワークであるHALOを提案する。 Raspberry Piクラスタによる実験の結果、HALOは信頼性の低いネットワーク条件下でLLaMAシリーズLLMの3.41倍のエンドツーエンドのスピードアップを達成した。
論文参考訳（メタデータ） (2026-01-16T07:37:23Z)
SERFLOW: A Cross-Service Cost Optimization Framework for SLO-Aware Dynamic ML Inference [0.15039745292757667]
以前の作業は、仮想マシン(VM)のコールドスタート、ロングテールなサービス時間分布でのリクエストなど、現実の要素をしばしば見落としています。我々は、各MLクエリ(要求)を、内部または最終出口で終了するスパースモデルのパラメータの連続ブロックを構成する非巡回的なステージ列をトラバースするものとしてモデル化する。 SERFLOWは、Fベースのサーバレス機能(コンテナ)を活用し、各ステージで終了するリクエストのごく一部を占めるステージ固有のリソースプロビジョニングを使用することで、この問題に対処する。
論文参考訳（メタデータ） (2025-10-31T05:10:33Z)
Justitia: Fair and Efficient Scheduling for LLM Applications [32.900257208449716]
我々は、3つの重要なテクニックを持つ新しいスケジューラであるJustitiaを設計する。 Justitiaは、LLMアプリケーションのサービスコストをメモリ中心の方法でモデル化します。単純なニューラルネットワークモデルを使用して、軽量で正確な需要予測を行う。
論文参考訳（メタデータ） (2025-10-19T21:34:34Z)
CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2025-08-15T07:49:22Z)
Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文参考訳（メタデータ） (2025-06-30T02:56:11Z)
SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。 SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文参考訳（メタデータ） (2025-05-07T19:44:09Z)
Autellix: An Efficient Serving Engine for LLM Agents as General Programs [59.673243129044465]
大規模言語モデル(LLM)アプリケーションは、単純なチャットボットを超えて、動的で汎用的なエージェントプログラムへと進化している。既存のLLMサービスシステムは、プログラムと呼び出し間の依存関係を無視し、最適化のための大きな機会を欠いている。プログラムを第一級市民として扱い、エンドツーエンドのレイテンシを最小限に抑えるLLMサービスシステムであるAutellixを紹介する。
論文参考訳（メタデータ） (2025-02-19T18:59:30Z)
ALISE: Accelerating Large Language Model Serving with Speculative Scheduling [7.367068885621016]
大規模言語モデル(LLM)は、現代の人工知能(AGI)の展望における革命的な進歩を表している。本稿では, ALISE という新しい効率的な LLM 推論サービスフレームワークを提案する。 ALISEは,AlpacaデータセットとShareGPTデータセットと同じレイテンシ制約の下で,最大1.8xと2.1xの推論処理のスループットを向上することを示す。
論文参考訳（メタデータ） (2024-10-31T00:58:11Z)
Fast Inference for Augmented Large Language Models [14.195265302357148]
Augmented Large Language Models (LLM)は、APIコールを通じて外部データソースを統合することで、スタンドアロンのLLMの機能を強化する。 SJF(Shortest Job First)のような従来のサイズベースのスケジューリングアルゴリズムは、完了時間の最小化にはあまり効果がない。拡張LLMのための新しいLLM推論フレームワークであるLAMPSを提案する。
論文参考訳（メタデータ） (2024-10-23T19:53:30Z)
Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。 LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。 LASERは公開データセットの3～5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文参考訳（メタデータ） (2024-08-11T02:31:13Z)
One Queue Is All You Need: Resolving Head-of-Line Blocking in Large Language Model Serving [2.9164564021428845]
大規模言語モデル(LLM)サービスのためのマルチモデルキュー管理フレームワークを提案する。 QLM は複数の LLM Serving Operations (LSOs) の動作をオーケストレーションし、HOL ブロックの削減と達成率の最大化を図っている。実世界のLLMサービスデータセットを用いた異種GPUデバイスおよびモデルの評価では、QLMはSLO達成率を40-90%改善し、スループットを20-400%向上した。
論文参考訳（メタデータ） (2024-06-05T21:17:34Z)
Efficient Interactive LLM Serving with Proxy Model-based Sequence Length Prediction [8.705908108054878]
大型モデル(LLM)は、多くのドメインにわたるAIアプリケーションの新しい波を駆動している。 LLM出力シーケンス長の予測に光プロキシモデルを用いる投機的ショートストジョブファースト(SSJF)スケジューラを提案する。
論文参考訳（メタデータ） (2024-04-12T14:46:15Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文参考訳（メタデータ） (2024-02-22T18:58:28Z)
SpotServe: Serving Generative Large Language Models on Preemptible Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。 SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4～9.1倍削減できることを示す。また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文参考訳（メタデータ） (2023-11-27T06:31:17Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)
Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。 FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文参考訳（メタデータ） (2023-05-10T06:17:50Z)
Device Scheduling and Update Aggregation Policies for Asynchronous Federated Learning [72.78668894576515]
Federated Learning (FL)は、新しく登場した分散機械学習(ML)フレームワークである。本稿では,FLシステムにおけるトラグラー問題を排除するために,周期的なアグリゲーションを伴う非同期FLフレームワークを提案する。
論文参考訳（メタデータ） (2021-07-23T18:57:08Z)
Better than the Best: Gradient-based Improper Reinforcement Learning for Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文参考訳（メタデータ） (2021-05-01T10:18:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。