論文の概要: TAPAS: Thermal- and Power-Aware Scheduling for LLM Inference in Cloud Platforms
- arxiv url: http://arxiv.org/abs/2501.02600v1
- Date: Sun, 05 Jan 2025 16:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:06:25.217011
- Title: TAPAS: Thermal- and Power-Aware Scheduling for LLM Inference in Cloud Platforms
- Title(参考訳): TAPAS: クラウドプラットフォームにおけるLCM推論のための熱・パワーアウェアスケジューリング
- Authors: Jovan Stojkovic, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Haoran Qiu, Rodrigo Fonseca, Josep Torrellas, Ricardo Bianchini,
- Abstract要約: 生成型大規模言語モデル(LLM)の需要の増加は、クラウドにおける熱と電力管理に課題をもたらしている。
本研究では,クラウド上でのLLM推論クラスタを対象としたサーマルアウェアフレームワークであるTAPASを提案する。
大規模GPUクラスタに対する評価は, 熱・パワースロットリング現象を著しく低減し, システム効率を向上することを示す。
- 参考スコア(独自算出の注目度): 9.36320423249322
- License:
- Abstract: The rising demand for generative large language models (LLMs) poses challenges for thermal and power management in cloud datacenters. Traditional techniques often are inadequate for LLM inference due to the fine-grained, millisecond-scale execution phases, each with distinct performance, thermal, and power profiles. Additionally, LLM inference workloads are sensitive to various configuration parameters (e.g., model parallelism, size, and quantization) that involve trade-offs between performance, temperature, power, and output quality. Moreover, clouds often co-locate SaaS and IaaS workloads, each with different levels of visibility and flexibility. We propose TAPAS, a thermal- and power-aware framework designed for LLM inference clusters in the cloud. TAPAS enhances cooling and power oversubscription capabilities, reducing the total cost of ownership (TCO) while effectively handling emergencies (e.g., cooling and power failures). The system leverages historical temperature and power data, along with the adaptability of SaaS workloads, to: (1) efficiently place new GPU workload VMs within cooling and power constraints, (2) route LLM inference requests across SaaS VMs, and (3) reconfigure SaaS VMs to manage load spikes and emergency situations. Our evaluation on a large GPU cluster demonstrates significant reductions in thermal and power throttling events, boosting system efficiency.
- Abstract(参考訳): 生成型大規模言語モデル(LLM)の需要の増加は、クラウドデータセンタにおける熱と電力管理に課題をもたらしている。
従来の手法は、細粒度でミリ秒規模の実行フェーズによって、それぞれが異なる性能、熱、パワープロファイルを持つため、LSM推論には不適当であることが多い。
さらに、LLM推論ワークロードは、パフォーマンス、温度、電力、出力品質のトレードオフを含むさまざまな設定パラメータ(モデル並列性、サイズ、量子化など)に敏感である。
さらに、クラウドはしばしばSaaSとIaaSのワークロードを共同で配置します。
クラウド上でのLLM推論クラスタ用に設計された熱・パワーアウェアフレームワークであるTAPASを提案する。
TAPASは、冷却と電力過多機能を強化し、オーナシップの総コスト(TCO)を削減し、緊急事態(例えば、冷却と電力障害)を効果的に処理する。
1)新しいGPUワークロードVMを冷却と電力制約内に効率よく配置し、(2)LLM推論要求をSaaSVMにルーティングし、(3)ロードスパイクと緊急状況を管理するためにSaaSVMを再設定する。
大規模GPUクラスタに対する評価は, 熱・パワースロットリング現象を著しく低減し, システム効率を向上することを示す。
関連論文リスト
- SLO-aware GPU Frequency Scaling for Energy Efficient LLM Inference Serving [6.010159688581912]
本稿では,Service-Level Objectives に適合しながら,消費電力を削減するフレームワーク textitthrottLL'eM を提案する。
textitthrottLL'eMは将来のKVキャッシュ使用量とバッチサイズを予測するメカニズムを備えている。
提案したMLモデルは0.97以上のR2$スコアを達成し,平均1秒あたり1イテレーション未満のパフォーマンスを予測した。
論文 参考訳(メタデータ) (2024-08-05T09:07:06Z) - DynamoLLM: Designing LLM Inference Clusters for Performance and Energy Efficiency [7.073435885680335]
そこで我々はDynamoLLMを提案する。DynamoLLMは、生成型大規模言語モデルのための最初のエネルギー管理フレームワークである。
サービスレベルでは、DynamoLLMは53%のエネルギーと38%の運転二酸化炭素を節約し、顧客へのコストを61%削減する。
論文 参考訳(メタデータ) (2024-08-01T17:40:45Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - Hybrid Heterogeneous Clusters Can Lower the Energy Consumption of LLM Inference Workloads [0.2389598109913753]
大規模言語モデル(LLM)の訓練と使用には大量のエネルギーが必要である。
本稿では, LLM を運用するデータセンターにおけるエネルギー消費削減の課題に対処する。
本稿では,コストベースのスケジューリングフレームワークを用いて,ハードウェアアクセラレータ間でタスクを動的に割り当てるハイブリッドデータセンターモデルを提案する。
論文 参考訳(メタデータ) (2024-04-25T11:24:08Z) - LLM-PQ: Serving LLM on Heterogeneous Clusters with Phase-Aware Partition
and Adaptive Quantization [9.517540904818986]
本稿では、不均一GPUクラスタ上でのLCM機能効率を改善するために、適応モデル量子化と位相認識分割を提案する。
11の異なるクラスタでのプロダクション推論ワークロードの実験は、LLM-PQが推論のスループットを最大2.88倍(2.26倍)向上させることを示した。
論文 参考訳(メタデータ) (2024-03-02T08:40:07Z) - SpotServe: Serving Generative Large Language Models on Preemptible
Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。
SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4~9.1倍削減できることを示す。
また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文 参考訳(メタデータ) (2023-11-27T06:31:17Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - POLCA: Power Oversubscription in LLM Cloud Providers [0.8299593158757622]
大規模言語モデル (LLMs) はますます強力になりつつある。
LLMクラスタに電力をオーバーサブスクライブする大きな機会があることが示される。
我々は、堅牢で信頼性があり、GPUクラスタに容易にデプロイ可能な、パワーオーバーサブスクライブのためのフレームワークであるPOLCAを提案する。
論文 参考訳(メタデータ) (2023-08-24T16:32:34Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。