論文の概要: Equinox: Holistic Fair Scheduling in Serving Large Language Models
- arxiv url: http://arxiv.org/abs/2508.16646v1
- Date: Tue, 19 Aug 2025 06:17:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.079979
- Title: Equinox: Holistic Fair Scheduling in Serving Large Language Models
- Title(参考訳): Equinox: 大規模言語モデルの実行における全体論的公正スケジューリング
- Authors: Zhixiang Wei, James Yen, Jingyi Chen, Ziyang Zhang, Zhibai Huang, Chen Chen, Xingzi Yu, Yicheng Gu, Chenggang Wu, Yun Wang, Mingyuan Xia, Jie Wu, Hao Wang, Zhengwei Qi,
- Abstract要約: 本稿では,ユーザとオペレータの視点を分離したデュアルカウンタフレームワークを提案する。
ユーザフェアネスカウンタは、重み付きトークンとレイテンシによってサービスの品質を測定し、リソースフェアネスカウンタはスループットとGPU利用を通じて運用効率を測定する。
これらのメトリクスは実行後のみ利用可能であるため、ユーザ認識のレイテンシ、出力トークン、スループット、GPU使用率を予測するために、決定論的混合予測エキスパート(MoPE)フレームワークを導入します。
- 参考スコア(独自算出の注目度): 28.781202256075343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the limitations of current LLM serving with a dual-counter framework separating user and operator perspectives. The User Fairness Counter measures quality of service via weighted tokens and latency; the Resource Fairness Counter measures operational efficiency through throughput and GPU utilization. Since these metrics are only available post-execution, creating a scheduling paradox, we introduce a deterministic Mixture of Prediction Experts (MoPE) framework to predict user-perceived latency, output tokens, throughput, and GPU utilization. These predictions enable calculation of a unified Holistic Fairness score that balances both counters through tunable parameters for proactive fairness-aware scheduling. We implement this in Equinox, an open-source system with other optimizations like adaptive batching, and stall-free scheduling. Evaluations on production traces (ShareGPT, LMSYS) and synthetic workloads demonstrate Equinox achieves up to $1.3\times$ higher throughput, 60\% lower time-to-first-token latency, and 13\% higher fairness versus VTC while maintaining 94\% GPU utilization, proving fairness under bounded discrepancy across heterogeneous platforms.
- Abstract(参考訳): 我々は、ユーザとオペレータの視点を分離したデュアルカウンタフレームワークで、現在のLLMの限界に対処する。
ユーザフェアネスカウンタは、重み付きトークンとレイテンシによってサービスの品質を測定し、リソースフェアネスカウンタはスループットとGPU利用を通じて運用効率を測定する。
これらのメトリクスは実行後のみ利用可能であり、スケジューリングパラドックスを作成するため、ユーザの知覚したレイテンシ、出力トークン、スループット、GPU利用を予測するための決定論的予測エキスパートの混合(MoPE)フレームワークを導入します。
これらの予測により、アクティブなフェアネス対応スケジューリングのための調整可能なパラメータを通して両カウンタのバランスをとる統一されたホリスティックフェアネススコアの計算が可能になる。
我々は、適応的バッチ処理やストールフリースケジューリングといった他の最適化を備えたオープンソースのシステムであるEquinoxでこれを実装しています。
プロダクショントレース(ShareGPT、LMSYS)と合成ワークロードの評価は、Equinoxが最大1.3\times$高スループット、60\%低タイムツーファーストのレイテンシ、13\%高フェアネス、94\%GPU使用率を維持しながら、異種プラットフォーム間の境界不一致下での公正性を証明していることを示している。
関連論文リスト
- CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - Optimizing Asynchronous Federated Learning: A~Delicate Trade-Off Between Model-Parameter Staleness and Update Frequency [0.9999629695552195]
我々は、非同期FLアルゴリズムにおける設計選択の影響をよりよく理解するために、モデリングと分析を用いる。
非同期FLを最適化するための基本的なトレードオフを特徴付ける。
これらの最適化は精度を10%から30%向上させる。
論文 参考訳(メタデータ) (2025-02-12T08:38:13Z) - Towards providing reliable job completion time predictions using PCS [0.874967598360817]
PCSは、他の伝統的な目的のバランスを保ちながら予測可能性を提供することを目的とした、新しいスケジューリングフレームワークである。
PCSは、性能と公正性を極端に妥協しながら、正確な完了時間推定を提供することができる。
論文 参考訳(メタデータ) (2024-01-18T19:46:24Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - Apparate: Rethinking Early Exits to Tame Latency-Throughput Tensions in ML Serving [10.926767319124547]
本稿では,機械学習モデルにおける早期退避を自動的に適用し,管理するシステムであるApparateを紹介する。
EEがもたらす時間的なオーバーヘッドと正確性に対処するために、Apparateは出口を再利用して継続的なフィードバックを提供する。
CVおよびNLP分類ワークロードの中央値応答レイテンシを40.5--91.5%と10.0--24.2%に下げる。
論文 参考訳(メタデータ) (2023-12-08T21:49:09Z) - Sparse Fine-tuning for Inference Acceleration of Large Language Models [48.285897264669984]
大規模言語モデル(LLM)の精密細粒度調整の問題点について考察する。
蒸留型損失の詳細な研究を行い,L2に基づく蒸留手法をSquareHeadと呼ぶ。
MPTテキスト生成では、細かな微調整が精度低下なしに75%の間隔に到達できることを初めて示す。
論文 参考訳(メタデータ) (2023-10-10T18:28:38Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。
既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。
このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文 参考訳(メタデータ) (2020-04-10T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。