論文の概要: Sustainable Supercomputing for AI: GPU Power Capping at HPC Scale
- arxiv url: http://arxiv.org/abs/2402.18593v1
- Date: Sun, 25 Feb 2024 02:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 17:11:32.291783
- Title: Sustainable Supercomputing for AI: GPU Power Capping at HPC Scale
- Title(参考訳): AIのための持続可能なスーパーコンピュータ:HPCスケールでのGPUパワーキャッピング
- Authors: Dan Zhao, Siddharth Samsi, Joseph McDonald, Baolin Li, David Bestor,
Michael Jones, Devesh Tiwari, Vijay Gadepally
- Abstract要約: 最近の大規模言語モデルは、トレーニングとデプロイにかなりのリソースを必要とする。
適切なパワーキャッピング量では、温度とパワードローの両方に顕著な低下が見られる。
私たちの研究は、スーパーコンピュータスケールでのGPUパワーキャッピングの効果を、初めて実施し、より詳細に分析したものです。
- 参考スコア(独自算出の注目度): 20.30679358575365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As research and deployment of AI grows, the computational burden to support
and sustain its progress inevitably does too. To train or fine-tune
state-of-the-art models in NLP, computer vision, etc., some form of AI hardware
acceleration is virtually a requirement. Recent large language models require
considerable resources to train and deploy, resulting in significant energy
usage, potential carbon emissions, and massive demand for GPUs and other
hardware accelerators. However, this surge carries large implications for
energy sustainability at the HPC/datacenter level. In this paper, we study the
aggregate effect of power-capping GPUs on GPU temperature and power draw at a
research supercomputing center. With the right amount of power-capping, we show
significant decreases in both temperature and power draw, reducing power
consumption and potentially improving hardware life-span with minimal impact on
job performance. While power-capping reduces power draw by design, the
aggregate system-wide effect on overall energy consumption is less clear; for
instance, if users notice job performance degradation from GPU power-caps, they
may request additional GPU-jobs to compensate, negating any energy savings or
even worsening energy consumption. To our knowledge, our work is the first to
conduct and make available a detailed analysis of the effects of GPU
power-capping at the supercomputing scale. We hope our work will inspire
HPCs/datacenters to further explore, evaluate, and communicate the impact of
power-capping AI hardware accelerators for more sustainable AI.
- Abstract(参考訳): aiの研究開発と展開が進むにつれ、その進歩を支援し維持するための計算負荷も必然的に増加する。
NLP、コンピュータビジョンなどの最先端モデルを訓練または微調整するために、ある種のAIハードウェアアクセラレーションは事実上必須である。
最近の大規模言語モデルは、トレーニングとデプロイにかなりのリソースを必要としており、その結果、かなりのエネルギー使用量、二酸化炭素排出量、GPUやその他のハードウェアアクセラレーターに対する膨大な需要が生じる。
しかし、この急上昇はhpc/データセンターレベルでのエネルギー持続可能性に大きな影響を与える。
本稿では,研究スーパーコンピュータセンターのGPU温度とパワードローに及ぼすパワーキャッピングGPUの集合効果について検討する。
適切な電力キャッピング量では、温度と消費電力の両方が大幅に減少し、消費電力が減少し、ジョブパフォーマンスに最小限の影響を伴ってハードウェア寿命が向上する可能性がある。
例えば、ユーザーがgpuのパワーキャップからジョブパフォーマンスが低下していることに気付くと、彼らは追加のgpuジョブに補償を要求したり、エネルギー節約を否定したり、エネルギー消費を悪化させたりする。
我々の知る限り、私たちの研究は、スーパーコンピュータスケールでのGPUパワーキャッピングの効果を、初めて実施し、より詳細に分析したものです。
私たちは、HPC/データセンターが、より持続可能なAIのために電力を消費するAIハードウェアアクセラレーターの影響をさらに探求し、評価し、伝達することを期待しています。
関連論文リスト
- Online Energy Optimization in GPUs: A Multi-Armed Bandit Approach [15.28157695259566]
エネルギー消費は、将来のコンピューティングアーキテクチャの開発において重要な設計基準と制限要因となっている。
本稿では,HPCシナリオにおけるGPUのための新しい,実用的なオンラインエネルギー最適化問題について検討する。
EnergyUCBは、GPUコア周波数をリアルタイムで動的に調整し、パフォーマンスへの影響を最小限に抑えるように設計されている。
論文 参考訳(メタデータ) (2024-10-03T17:05:34Z) - On the Opportunities of Green Computing: A Survey [80.21955522431168]
人工知能(AI)は数十年にわたり、技術と研究において大きな進歩を遂げてきた。
高いコンピューティングパワーの必要性は、より高い二酸化炭素排出量をもたらし、研究の公正性を損なう。
コンピューティングリソースの課題とAIの環境への影響に取り組むため、グリーンコンピューティングはホットな研究トピックとなっている。
論文 参考訳(メタデータ) (2023-11-01T11:16:41Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Energy Concerns with HPC Systems and Applications [0.0]
エム・エナジーは あらゆる関連活動や 技術設計において 重要な関心事になっています
コンピュータ活動の特定の場合については、いわゆる「エム・インテリジェント・デバイス」の出現と普及により問題を悪化させる。
主に、Emエネルギが最優先事項の1つとして、組み込みコンピューティングとEmスーパーコンピュータの2つのコンテキストがある。
論文 参考訳(メタデータ) (2023-08-31T08:33:42Z) - Non-Intrusive Electric Load Monitoring Approach Based on Current Feature
Visualization for Smart Energy Management [51.89904044860731]
我々はAIのコンピュータビジョン技術を用いて、スマートエネルギー管理のための非侵襲的な負荷監視手法を設計する。
マルチスケールの特徴抽出とアテンション機構を備えたU字型ディープニューラルネットワークを用いて,色特徴画像からすべての電気負荷を認識することを提案する。
論文 参考訳(メタデータ) (2023-08-08T04:52:19Z) - Precise Energy Consumption Measurements of Heterogeneous Artificial
Intelligence Workloads [0.534434568021034]
本稿では,異なるタイプの計算ノード上でのディープラーニングモデルの典型的な2つの応用のエネルギー消費の測定を行う。
我々のアプローチの1つの利点は、スーパーコンピュータの全ユーザーがエネルギー消費に関する情報を利用できることである。
論文 参考訳(メタデータ) (2022-12-03T21:40:55Z) - Great Power, Great Responsibility: Recommendations for Reducing Energy
for Training Language Models [8.927248087602942]
一般的なNLPアプリケーションのエネルギー消費を削減できる技術について検討する。
これらの手法は、訓練言語モデルや推論に使用する際のエネルギー消費を著しく減少させる可能性がある。
論文 参考訳(メタデータ) (2022-05-19T16:03:55Z) - The Ecological Footprint of Neural Machine Translation Systems [2.132096006921048]
本章では、ニューラルMTシステムの生態的フットプリントに焦点を当てる。
トレーニング中のパワードレインとニューラルMTモデルによる推論から始まり、環境への影響に向かって進む。
全体のCO2排出量はアイルランドとオランダで計算される。
論文 参考訳(メタデータ) (2022-02-04T14:56:41Z) - Compute and Energy Consumption Trends in Deep Learning Inference [67.32875669386488]
コンピュータビジョンと自然言語処理の分野における関連モデルについて検討する。
継続的な性能向上のために、これまで予想されていたよりもエネルギー消費の軟化が見られた。
論文 参考訳(メタデータ) (2021-09-12T09:40:18Z) - JUWELS Booster -- A Supercomputer for Large-Scale AI Research [79.02246047353273]
本稿では、最近J'ulich Supercomputing Centerに委託された高性能コンピューティングシステムであるJUWELS Boosterを紹介する。
システムアーキテクチャ、並列性、分散モデルトレーニング、その優れたパフォーマンスを示すベンチマークについて詳述する。
論文 参考訳(メタデータ) (2021-06-30T21:37:02Z) - The Architectural Implications of Distributed Reinforcement Learning on
CPU-GPU Systems [45.479582612113205]
CPU-GPUシステムにおけるRLトレーニングの性能と電力効率を改善する方法について述べる。
我々は,最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化を行う。
また、新しいシステム設計メトリック、CPU/GPU比を導入し、CPUリソースとGPUリソースの最適なバランスを見つける方法を紹介します。
論文 参考訳(メタデータ) (2020-12-08T04:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。