Fugu-MT 論文翻訳(概要): Locality-aware Fair Scheduling in LLM Serving

論文の概要: Locality-aware Fair Scheduling in LLM Serving

arxiv url: http://arxiv.org/abs/2501.14312v1
Date: Fri, 24 Jan 2025 08:12:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-27 20:40:39.674143
Title: Locality-aware Fair Scheduling in LLM Serving
Title（参考訳）: LLMにおける局所性を考慮したフェアスケジューリング
Authors: Shiyi Cao, Yichuan Wang, Ziming Mao, Pin-Lun Hsu, Liangsheng Yin, Tian Xia, Dacheng Li, Shu Liu, Yineng Zhang, Yang Zhou, Ying Sheng, Joseph Gonzalez, Ion Stoica,
Abstract要約: 大規模言語モデル(LLM)推論ワークロードは、さまざまな現代的なAIアプリケーションを支配している。公平性と効率性のバランスをとることは、さまざまなプレフィックスパターンで多様なクライアントワークロードを管理する上で非常に重要です。本稿では,最初の局所性を考慮したフェアスケジューリングアルゴリズムであるDeficit Longest Prefix Match(DLPM)を紹介する。
参考スコア（独自算出の注目度）: 28.707749238946253
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language model (LLM) inference workload dominates a wide variety of modern AI applications, ranging from multi-turn conversation to document analysis. Balancing fairness and efficiency is critical for managing diverse client workloads with varying prefix patterns. Unfortunately, existing fair scheduling algorithms for LLM serving, such as Virtual Token Counter (VTC), fail to take prefix locality into consideration and thus suffer from poor performance. On the other hand, locality-aware scheduling algorithms in existing LLM serving frameworks tend to maximize the prefix cache hit rate without considering fair sharing among clients. This paper introduces the first locality-aware fair scheduling algorithm, Deficit Longest Prefix Match (DLPM), which can maintain a high degree of prefix locality with a fairness guarantee. We also introduce a novel algorithm, Double Deficit LPM (D$^2$LPM), extending DLPM for the distributed setup that can find a balance point among fairness, locality, and load-balancing. Our extensive evaluation demonstrates the superior performance of DLPM and D$^2$LPM in ensuring fairness while maintaining high throughput (up to 2.87$\times$ higher than VTC) and low per-client (up to 7.18$\times$ lower than state-of-the-art distributed LLM serving system) latency.
Abstract（参考訳）: 大規模言語モデル(LLM)推論ワークロードは、マルチターン会話からドキュメント分析まで、さまざまな現代的なAIアプリケーションを支配している。公平性と効率性のバランスをとることは、さまざまなプレフィックスパターンで多様なクライアントワークロードを管理する上で非常に重要です。残念ながら、Virtual Token Counter (VTC)のような既存のLLMサービスのための公正なスケジューリングアルゴリズムは、プレフィックスの局所性を考慮せず、性能の低下に悩まされている。一方,既存のLLMサービスフレームワークにおける局所性を考慮したスケジューリングアルゴリズムは,クライアント間の公平な共有を考慮せずに,プレフィックスキャッシュヒット率を最大化する傾向にある。本稿では,初となる局所性を考慮したフェアスケジューリングアルゴリズムであるDeficit Longest Prefix Match(DLPM)を提案する。また、分散セットアップのためのDLPMを拡張し、公平性、局所性、ロードバランシングのバランス点を見つける新しいアルゴリズムであるDouble Deficit LPM(D$^2$LPM)を導入する。 DLPMとD$^2$LPMは高いスループット(VTCより2.87$\times$高い)と低クライアント(最先端の分散LLMサービスシステムよりも7.18$\times$低い)を維持しながら、公平性を確保する上で優れた性能を示す。

関連論文リスト

Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文参考訳（メタデータ） (2025-06-30T02:56:11Z)
A Federated Splitting Framework for LLMs: Security, Efficiency, and Adaptability [15.194518946737801]
FL-LLaMAはLLaMA2をベースとしたセキュアで効率的で適応的なフェデレーション分割フレームワークである。我々は、並列トレーニングを実現するためにクライアントバッチとサーバ階層戦略、そして推論を高速化するために注目マスク圧縮とKVキャッシュ機構を採用する。 NLU、要約、会話型QAタスクの実験では、FL-LLaMAは集中型LLaMA2に匹敵する性能を維持し、最大2倍の列車スピードアップと8倍の推論スピードアップを実現している。
論文参考訳（メタデータ） (2025-05-21T15:58:08Z)
Smart Routing: Cost-Effective Multi-LLM Serving for Multi-Core AIOS [31.60019342381251]
既存のスケジューリングフレームワークは主にレイテンシの最適化をターゲットとしている。本稿では,マルチLLMサービスのための高効率能率協調スケジューリングフレームワークECCOSを提案する。
論文参考訳（メタデータ） (2025-02-27T22:35:31Z)
Efficiently Serving Large Multimodal Models Using EPD Disaggregation [24.05805398635414]
Encode-Prefill-Decode Disaggregation(エンコード・プリフィル・デコード・デコード・デアグリゲーション)という,エンコード・プリフィル・デコード・デコード・デアグリゲーション(Encode-Prefill-Decode Disaggregation)というフレームワークを紹介した。メモリ効率の大幅な向上(使用率の削減)、バッチサイズ(最大22$times$大きなもの)、10$times$より多くのイメージ/リクエスト、2.2$times$より大きなKVキャッシュ。
論文参考訳（メタデータ） (2024-12-25T10:11:31Z)
From Holistic to Localized: Local Enhanced Adapters for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
効率的なビジュアルインストラクションファインタニング(EVIT)は、最小の計算オーバーヘッドで下流タスクにマルチモーダル大言語モデル(MLLM)を適用することを目指している。本稿では,Dual Low-Rank Adaptation (Dual-LoRA)を提案する。
論文参考訳（メタデータ） (2024-11-19T11:03:09Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
FedBiOT: LLM Local Fine-tuning in Federated Learning without Full Model [48.33280660752336]
大規模言語モデル(LLM)は、適切なデータで微調整した後、多くのドメイン固有のタスクで素晴らしいパフォーマンスを示す。多くのドメイン固有のデータは、プライベートに複数の所有者に分散される。我々は,フェデレート学習のための資源効率の高いLLM微調整手法であるFedBiOTを紹介する。
論文参考訳（メタデータ） (2024-06-25T16:45:47Z)
Preble: Efficient Distributed Prompt Scheduling for LLM Serving [8.706905652975554]
本稿では,プロンプト共有をターゲットとし最適化する最初の分散LLMサービスプラットフォームであるPrebleを提案する。我々は,新しいスケジューリングアルゴリズムと階層的スケジューリング機構を用いて,KV状態の再利用と計算負荷分散を協調的に最適化する分散スケジューリングシステムを構築した。 2つのオープンソースLCM上での実際のワークロードと要求到着パターンによるPrebleの評価は、平均レイテンシで1.5倍から14.5倍、p99レイテンシで2倍から10倍のSOTAサービスシステムより優れていることを示している。
論文参考訳（メタデータ） (2024-05-08T06:30:58Z)
CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning [59.88924847995279]
MTSFのためのクロスモーダルLCMファインチューニング(CALF)フレームワークを提案する。分散の相違を低減するため,クロスモーダルマッチングモジュールを開発した。 CALFは、長期および短期の予測タスクの最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2024-03-12T04:04:38Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
Fairness in Serving Large Language Models [45.81800239353461]
本稿では,処理された入出力トークンの数を考慮したコスト関数に基づくサービスフェアネスの定義を提案する。本稿では,新たなスケジューリングアルゴリズムであるVirtual Counter Token (VTC)を提案する。サービススケジューラの2倍の厳しい上限を証明し、作業保守の要件に準拠します。
論文参考訳（メタデータ） (2023-12-31T21:15:54Z)
SpotServe: Serving Generative Large Language Models on Preemptible Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。 SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4～9.1倍削減できることを示す。また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文参考訳（メタデータ） (2023-11-27T06:31:17Z)
Cache me if you Can: an Online Cost-aware Teacher-Student framework to Reduce the Calls to Large Language Models [13.799197575126442]
中小企業(中小企業)は、大規模なタスク固有のトレーニングデータセットを作成する費用を支払うことができない。大規模言語モデルをプロンプトできるサードパーティサービスは、現在、通話1回あたりの支払いを必要としている。本稿では,従来の応答をキャッシュし,ローカルな安価なモデルをトレーニングすることで,LCMへの呼び出しを削減できるフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-20T10:05:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。