論文の概要: Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference
- arxiv url: http://arxiv.org/abs/2508.19559v1
- Date: Wed, 27 Aug 2025 04:22:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.487815
- Title: Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference
- Title(参考訳): カオスのモデリング:不均一かつ非凝集なLLM推論のためのコーディネートオートスケーリング
- Authors: Rongzhi Li, Ruogu Du, Zefang Chu, Sida Zhao, Chunlei Han, Zuocheng Shi, Yiwen Shao, Huanle Han, Long Huang, Zherui Liu, Shufan Liu,
- Abstract要約: Serving Large Language Models (LLMs)は、従来のオートスケーラが不足するGPU集約的なタスクである。
我々は,P/D分散サービスにおけるコア課題に対処する,協調型自動スケーリングフレームワークであるHeteroScaleを紹介した。
- 参考スコア(独自算出の注目度): 5.786961198115219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Serving Large Language Models (LLMs) is a GPU-intensive task where traditional autoscalers fall short, particularly for modern Prefill-Decode (P/D) disaggregated architectures. This architectural shift, while powerful, introduces significant operational challenges, including inefficient use of heterogeneous hardware, network bottlenecks, and critical imbalances between prefill and decode stages. We introduce HeteroScale, a coordinated autoscaling framework that addresses the core challenges of P/D disaggregated serving. HeteroScale combines a topology-aware scheduler that adapts to heterogeneous hardware and network constraints with a novel metric-driven policy derived from the first large-scale empirical study of autoscaling signals in production. By leveraging a single, robust metric to jointly scale prefill and decode pools, HeteroScale maintains architectural balance while ensuring efficient, adaptive resource management. Deployed in a massive production environment on tens of thousands of GPUs, HeteroScale has proven its effectiveness, increasing average GPU utilization by a significant 26.6 percentage points and saving hundreds of thousands of GPU-hours daily, all while upholding stringent service level objectives.
- Abstract(参考訳): Serving Large Language Models (LLMs)は、特に最新のPrefill-Decode (P/D)分散アーキテクチャにおいて、従来のオートスケーラが不足するGPU集約的なタスクである。
このアーキテクチャシフトは強力だが、不均一なハードウェアの非効率使用、ネットワークボトルネック、プリフィルとデコードステージ間の重要な不均衡など、重要な運用上の課題をもたらす。
我々は,P/D分散サービスにおけるコア課題に対処する,協調型自動スケーリングフレームワークであるHeteroScaleを紹介した。
HeteroScaleは、異種ハードウェアとネットワークの制約に適応するトポロジ対応スケジューラと、プロダクションにおけるオートスケーリング信号の最初の大規模な実証的研究から生まれた、新しいメトリック駆動のポリシーを組み合わせる。
HeteroScaleは、単一の堅牢なメトリックを活用して、プレフィルとデコードプールを共同でスケールすることで、アーキテクチャのバランスを維持しながら、効率的で適応的なリソース管理を保証します。
数万のGPU上で大規模な運用環境にデプロイされたHeteroScaleは、その効果を証明し、平均GPU使用率を26.6ポイント引き上げ、毎日数十万のGPU時間を節約し、厳しいサービスレベルの目標を達成している。
関連論文リスト
- JEDI-linear: Fast and Efficient Graph Neural Networks for Jet Tagging on FPGAs [36.158374493924455]
グラフニューラルネットワーク (GNN) は、CERN High Luminosity Large Hadron Collider (HLLHC) において、ジェットタグの異常な性能を示した。
本稿では,線形計算複雑性を持つ新しいGNNアーキテクチャであるJEDI-linearを提案する。
これは60ns未満のレイテンシを達成した初めてのインタラクションベースのGNNであり、現在はHL-LHC CMS Level-1トリガシステムで使用される要件を満たしている。
論文 参考訳(メタデータ) (2025-08-21T11:40:49Z) - STAMP: Scalable Task And Model-agnostic Collaborative Perception [24.890993164334766]
STAMPは、異種エージェントのためのタスクおよびモデルに依存しない協調認識パイプラインである。
計算オーバーヘッドを最小限に抑え、スケーラビリティを高め、モデルのセキュリティを維持する。
第一種フレームワークとしてSTAMPは,スケーラブルでセキュアなモビリティシステムの研究を,レベル5の自律性に向けて進めることを目指している。
論文 参考訳(メタデータ) (2025-01-24T16:27:28Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Multi-Level GNN Preconditioner for Solving Large Scale Problems [0.0]
グラフニューラルネットワーク(GNN)はメッシュのような非構造化データから学ぶのに最適だが、小さな問題に制限されることが多い。
本稿では,GNNモデルを多レベルドメイン分解フレームワークに統合した新しいプレコンディショナーを提案する。
提案したGNNベースのプレコンディショナーは、Krylov法の効率を高めるために使用され、任意の精度の要求レベルに収束できるハイブリッド・ソルバとなる。
論文 参考訳(メタデータ) (2024-02-13T08:50:14Z) - Quantize Once, Train Fast: Allreduce-Compatible Compression with Provable Guarantees [53.950234267704]
我々は、全リデュース勾配互換量子化法であるGlobal-QSGDを紹介する。
ベースライン量子化法で最大3.51%の分散トレーニングを高速化することを示す。
論文 参考訳(メタデータ) (2023-05-29T21:32:15Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Finding the Task-Optimal Low-Bit Sub-Distribution in Deep Neural
Networks [10.278350434623107]
量子ニューラルネットワークは通常、メモリフットプリントを小さくし、計算の複雑さを小さくする必要がある。
本稿では,モデルに固有の最適潜伏部分分布を学習するための適応行列量子化法を提案する。
近代建築における画像分類と物体検出実験は,提案手法の有効性,一般化性,伝達性を示す。
論文 参考訳(メタデータ) (2021-12-30T17:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。