Fugu-MT 論文翻訳(概要): Hierarchical Autoscaling for Large Language Model Serving with Chiron

論文の概要: Hierarchical Autoscaling for Large Language Model Serving with Chiron

arxiv url: http://arxiv.org/abs/2501.08090v1
Date: Tue, 14 Jan 2025 12:57:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-15 17:02:04.482223
Title: Hierarchical Autoscaling for Large Language Model Serving with Chiron
Title（参考訳）: カイロンを用いた大規模言語モデルの階層的自動スケーリング
Authors: Archit Patke, Dhemath Reddy, Saurabh Jha, Chandra Narayanaswami, Zbigniew Kalbarczyk, Ravishankar Iyer,
Abstract要約: 大規模言語モデル(LLM)のサービス提供は、クラウドプロバイダにとってますます重要なワークロードになりつつある。 LLMサービスのための以前のオートスケーラは、不要なスケーリングとリソースのアンダーユーティリティ化につながる要求SLOを考慮しない。我々は,待ち行列サイズ,利用率,SLOを用いて推定した階層的バックプレッシャを用いた自動スケーラであるChironを紹介する。
参考スコア（独自算出の注目度）: 2.767894999702707
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language model (LLM) serving is becoming an increasingly important workload for cloud providers. Based on performance SLO requirements, LLM inference requests can be divided into (a) interactive requests that have tight SLOs in the order of seconds, and (b) batch requests that have relaxed SLO in the order of minutes to hours. These SLOs can degrade based on the arrival rates, multiplexing, and configuration parameters, thus necessitating the use of resource autoscaling on serving instances and their batch sizes. However, previous autoscalers for LLM serving do not consider request SLOs leading to unnecessary scaling and resource under-utilization. To address these limitations, we introduce Chiron, an autoscaler that uses the idea of hierarchical backpressure estimated using queue size, utilization, and SLOs. Our experiments show that Chiron achieves up to 90% higher SLO attainment and improves GPU efficiency by up to 70% compared to existing solutions.
Abstract（参考訳）: 大規模言語モデル(LLM)のサービス提供は、クラウドプロバイダにとってますます重要なワークロードになりつつある。性能SLO要求に基づき、LLM推論要求を分割することができる。 (a)数秒の順序で厳密なSLOを持つ対話型リクエスト b) 数分から数時間でSLOを緩和したバッチリクエスト。これらのSLOは、到着率、多重化、設定パラメータに基づいて分解できるため、サービスインスタンスとバッチサイズに対するリソース自動スケーリングの使用が必要になる。しかし、従来のLCMサービス用オートスケーラは、不要なスケーリングやリソースのアンダーユーティリティ化につながる要求SLOを考慮していない。これらの制約に対処するために、キューサイズ、利用率、SLOを用いて推定される階層的バックプレッシャのアイデアを利用するオートスケーラであるChironを導入する。実験の結果,ChironはSLO達成率を最大90%向上し,GPU効率を既存ソリューションと比較して最大70%向上した。

関連論文リスト

PolyServe: Efficient Multi-SLO Serving at Scale [6.147741784378271]
PolyServeは、スループットを最大化しながら高いSLO達成を維持できる、新しいマルチSLOスケジューリングポリシーである。 PolyServeは既存の政策と比べて1.23倍の利得を達成し、最適な利得の92.5%を達成している。
論文参考訳（メタデータ） (2025-07-17T05:54:42Z)
Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文参考訳（メタデータ） (2025-05-23T16:51:54Z)
Tempo: Application-aware LLM Serving with Mixed SLO Requirements [7.290735867969561]
我々は、多様なLLMワークロード間のサービスゲインを最大化するように設計されたスケジューラであるTempoを紹介した。我々の評価によると、Tempoは最先端の設計と比較して、最大で8.3$times$、最大で10.3$times$SLOのサービスゲインを改善する。
論文参考訳（メタデータ） (2025-04-24T05:55:21Z)
SLOs-Serve: Optimized Serving of Multi-SLO LLMs [11.102801440968706]
SLOs-Serveは,多段階の大規模言語モデル(LLM)要求に対して,アプリケーションおよびステージ固有のサービスレベル目標(SLO)を提供するように設計されたシステムである。 SLO-Serveの主要なアイデアは、これらのSLO要件を満たすためにトークンの割り当てをカスタマイズすることだ。
論文参考訳（メタデータ） (2025-04-05T17:41:26Z)
AccelGen: Heterogeneous SLO-Guaranteed High-Throughput LLM Inference Serving for Diverse Applications [8.964981700274059]
多様なアプリケーションに対して異種SLOを保証する高スループット推論サービスであるAccelGenを提案する。トレース実実験により、AccelGenは1.42-11.21倍のスループット、1.43-13.71倍の高出力、37-90%のSLO達成、そして1.61-12.22倍の応答遅延を達成した。
論文参考訳（メタデータ） (2025-03-17T21:47:43Z)
Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。 LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。 LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文参考訳（メタデータ） (2025-02-20T18:37:32Z)
Autellix: An Efficient Serving Engine for LLM Agents as General Programs [59.673243129044465]
大規模言語モデル(LLM)アプリケーションは、単純なチャットボットを超えて、動的で汎用的なエージェントプログラムへと進化している。既存のLLMサービスシステムは、プログラムと呼び出し間の依存関係を無視し、最適化のための大きな機会を欠いている。プログラムを第一級市民として扱い、エンドツーエンドのレイテンシを最小限に抑えるLLMサービスシステムであるAutellixを紹介する。
論文参考訳（メタデータ） (2025-02-19T18:59:30Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
ALISE: Accelerating Large Language Model Serving with Speculative Scheduling [7.367068885621016]
大規模言語モデル(LLM)は、現代の人工知能(AGI)の展望における革命的な進歩を表している。本稿では, ALISE という新しい効率的な LLM 推論サービスフレームワークを提案する。 ALISEは,AlpacaデータセットとShareGPTデータセットと同じレイテンシ制約の下で,最大1.8xと2.1xの推論処理のスループットを向上することを示す。
論文参考訳（メタデータ） (2024-10-31T00:58:11Z)
Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback [52.763620660061115]
ONIは、RLポリシーと本質的な報酬関数を同時に学習する分散アーキテクチャである。我々は、様々な複雑さを持つ報酬モデリングのためのアルゴリズムの選択範囲を探索する。提案手法は,NetHack Learning Environment の様々な課題にまたがって,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-10-30T13:52:43Z)
One Queue Is All You Need: Resolving Head-of-Line Blocking in Large Language Model Serving [2.9164564021428845]
大規模言語モデル(LLM)サービスのためのマルチモデルキュー管理フレームワークを提案する。 QLM は複数の LLM Serving Operations (LSOs) の動作をオーケストレーションし、HOL ブロックの削減と達成率の最大化を図っている。実世界のLLMサービスデータセットを用いた異種GPUデバイスおよびモデルの評価では、QLMはSLO達成率を40-90%改善し、スループットを20-400%向上した。
論文参考訳（メタデータ） (2024-06-05T21:17:34Z)
Llumnix: Dynamic Scheduling for Large Language Model Serving [17.919408899409113]
大規模言語モデル(LLM)に対する推論は、その可能性を解き放つ鍵である。 Llumnixは、実行時再スケジューリングによって、不均一で予測不能な要求に応答するLLMサービスシステムである。 Llumnixはテールレイテンシを桁違いに改善し,高優先度要求を最大1.5倍高速化し,最大36%のコスト削減を実現している。
論文参考訳（メタデータ） (2024-06-05T13:20:18Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Distributed Inference and Fine-tuning of Large Language Models Over The Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文参考訳（メタデータ） (2023-12-13T18:52:49Z)
Cache & Distil: Optimising API Calls to Large Language Models [82.32065572907125]
ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。これらの呼び出しの頻度を縮めるために、より小さな言語モデル(学生)を用いることができる。この学生は、ユーザー要求の増加に独立して対処する能力が徐々に向上する。
論文参考訳（メタデータ） (2023-10-20T15:01:55Z)
LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文参考訳（メタデータ） (2023-08-21T02:07:35Z)
Autothrottle: A Practical Bi-Level Approach to Resource Management for SLO-Targeted Microservices [30.075132870154153]
Autothrottleは、サービスレベルの目的のための双方向のリソース管理フレームワークである。サービスリソースコントロールからアプリケーションフィードバックをトラバースし、パフォーマンス目標という概念を通じてそれらをブリッジします。その結果、最高成績のベースラインを26.21%、全ベースラインを93.84%上回った。
論文参考訳（メタデータ） (2022-12-23T07:42:56Z)
Using LSTM and SARIMA Models to Forecast Cluster CPU Usage [0.0]
この研究は、1つのリソース、CPU使用量、短期的および長期的両方のタイムスケールを予測することを目指している。これらのモデルを、短期タスクの次の1時間、長期タスクの次の3日間の使用を予測することを目的として、データポイントあたり20分に再サンプリングしたAzureデータに適用する。 SARIMAモデルはLSTMの長期予測タスクよりも優れていたが、短期的なタスクでは性能が劣った。
論文参考訳（メタデータ） (2020-07-16T03:29:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。