論文の概要: POLCA: Power Oversubscription in LLM Cloud Providers
- arxiv url: http://arxiv.org/abs/2308.12908v1
- Date: Thu, 24 Aug 2023 16:32:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 13:16:53.095028
- Title: POLCA: Power Oversubscription in LLM Cloud Providers
- Title(参考訳): POLCA: LLMクラウドプロバイダのパワーオーバーサブスクライブ
- Authors: Pratyush Patel, Esha Choukse, Chaojie Zhang, \'I\~nigo Goiri, Brijesh
Warrier, Nithish Mahalingam, Ricardo Bianchini
- Abstract要約: 大規模言語モデル (LLMs) はますます強力になりつつある。
LLMクラスタに電力をオーバーサブスクライブする大きな機会があることが示される。
我々は、堅牢で信頼性があり、GPUクラスタに容易にデプロイ可能な、パワーオーバーサブスクライブのためのフレームワークであるPOLCAを提案する。
- 参考スコア(独自算出の注目度): 0.8299593158757622
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent innovation in large language models (LLMs), and their myriad use-cases
have rapidly driven up the compute capacity demand for datacenter GPUs. Several
cloud providers and other enterprises have made substantial plans of growth in
their datacenters to support these new workloads. One of the key bottleneck
resources in datacenters is power, and given the increasing model sizes of
LLMs, they are becoming increasingly power intensive. In this paper, we show
that there is a significant opportunity to oversubscribe power in LLM clusters.
Power oversubscription improves the power efficiency of these datacenters,
allowing more deployable servers per datacenter, and reduces the deployment
time, since building new datacenters is slow.
We extensively characterize the power consumption patterns of a variety of
LLMs and their configurations. We identify the differences between the
inference and training power consumption patterns. Based on our analysis of
these LLMs, we claim that the average and peak power utilization in LLM
clusters for inference should not be very high. Our deductions align with the
data from production LLM clusters, revealing that inference workloads offer
substantial headroom for power oversubscription. However, the stringent set of
telemetry and controls that GPUs offer in a virtualized environment, makes it
challenging to have a reliable and robust power oversubscription mechanism.
We propose POLCA, our framework for power oversubscription that is robust,
reliable, and readily deployable for GPU clusters. Using open-source models to
replicate the power patterns observed in production, we simulate POLCA and
demonstrate that we can deploy 30% more servers in the same GPU cluster for
inference, with minimal performance loss
- Abstract(参考訳): 大規模言語モデル(LLM)の最近のイノベーションとその無数のユースケースは、データセンターGPUの計算能力需要を急速に押し上げている。
いくつかのクラウドプロバイダや他の企業は、これらの新しいワークロードをサポートするために、データセンタの大幅な成長計画を立てた。
データセンタにおける重要なボトルネックリソースの1つは電力であり、LLMのモデルサイズが大きくなるにつれ、パワー集約化が進んでいる。
本稿では,LLMクラスタに電力をオーバーサブスクライブする大きな機会があることを述べる。
power oversubscriptionは、これらのデータセンタの電力効率を改善し、データセンタ毎にデプロイ可能なサーバを増やし、新しいデータセンタの構築が遅いため、デプロイ時間を短縮する。
我々は様々なllmの電力消費パターンとその構成を広範囲に特徴付ける。
推論とトレーニングの消費電力パターンの違いを明らかにする。
これらの LLM の解析から,LLM クラスタの平均およびピーク電力利用量はあまり高くないと主張している。
我々のデダクションは、実運用LLMクラスタのデータと一致しており、推論のワークロードは、電力過多のための相当なヘッドルームを提供します。
しかしながら、gpuが仮想化環境で提供するテレメトリとコントロールの厳密なセットは、信頼性と堅牢なパワーオーバーサブプリケーションメカニズムを持つことを困難にしている。
我々は、堅牢で信頼性があり、GPUクラスタに容易にデプロイ可能なパワーオーバーサブスクライブのためのフレームワークであるPOLCAを提案する。
実運用で観測された電力パターンを再現するためにオープンソースモデルを使用することで、polcaをシミュレートし、推論のために同じgpuクラスタに30%以上のサーバをデプロイできることを実証する。
関連論文リスト
- SplitLLM: Collaborative Inference of LLMs for Model Placement and Throughput Optimization [8.121663525764294]
大きな言語モデル(LLM)は、人間のようなテキストを理解し、生成する能力のために、私たちの日常生活において重要な役割を担います。
本稿では,サーバとクライアント間の協調推論アーキテクチャを設計し,スループットの限界を緩和する。
実験では、サーバのワークロードを約1/3削減できるように、効率よくワークロードを分散できることを示した。
論文 参考訳(メタデータ) (2024-10-14T17:38:41Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - FedBiOT: LLM Local Fine-tuning in Federated Learning without Full Model [48.33280660752336]
大規模言語モデル(LLM)は、適切なデータで微調整した後、多くのドメイン固有のタスクで素晴らしいパフォーマンスを示す。
多くのドメイン固有のデータは、プライベートに複数の所有者に分散される。
我々は,フェデレート学習のための資源効率の高いLLM微調整手法であるFedBiOTを紹介する。
論文 参考訳(メタデータ) (2024-06-25T16:45:47Z) - Hybrid Heterogeneous Clusters Can Lower the Energy Consumption of LLM Inference Workloads [0.2389598109913753]
大規模言語モデル(LLM)の訓練と使用には大量のエネルギーが必要である。
本稿では, LLM を運用するデータセンターにおけるエネルギー消費削減の課題に対処する。
本稿では,コストベースのスケジューリングフレームワークを用いて,ハードウェアアクセラレータ間でタスクを動的に割り当てるハイブリッドデータセンターモデルを提案する。
論文 参考訳(メタデータ) (2024-04-25T11:24:08Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - The MIT Supercloud Dataset [3.375826083518709]
我々は、大規模なHPCとデータセンター/クラウドオペレーションの分析において、革新的なAI/MLアプローチを促進することを目的とした、MIT Supercloudデータセットを紹介します。
我々は、ジョブ毎のCPUおよびGPU使用率、メモリ使用率、ファイルシステムログ、物理モニタリングデータを含む、MIT Supercloudシステムから詳細な監視ログを提供する。
本稿では,データセットの詳細,収集手法,データ可用性について論じ,このデータを用いて開発されている潜在的な課題について論じる。
論文 参考訳(メタデータ) (2021-08-04T13:06:17Z) - Power Modeling for Effective Datacenter Planning and Compute Management [53.41102502425513]
我々は,すべてのハードウェア構成とワークロードに適用可能な,正確でシンプルで解釈可能な統計パワーモデルの設計と検証の2つのクラスについて論じる。
提案された統計的モデリング手法は, 単純かつスケーラブルでありながら, 4つの特徴のみを用いて, 95% 以上の多様な配電ユニット (2000 以上) に対して, 5% 未満の絶対パーセンテージエラー (MAPE) で電力を予測できることを実証した。
論文 参考訳(メタデータ) (2021-03-22T21:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。