論文の概要: Power Stabilization for AI Training Datacenters
- arxiv url: http://arxiv.org/abs/2508.14318v1
- Date: Wed, 20 Aug 2025 00:04:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.293911
- Title: Power Stabilization for AI Training Datacenters
- Title(参考訳): AIトレーニングデータセンターの電力安定化
- Authors: Esha Choukse, Brijesh Warrier, Scot Heath, Luz Belmont, April Zhao, Hassan Ali Khan, Brian Harry, Matthew Kappel, Russell J. Hewett, Kushal Datta, Yu Pei, Caroline Lichtenberger, John Siegler, David Lukofsky, Zaid Kahn, Gurpreet Sahota, Andy Sullivan, Charles Frederick, Hien Thai, Rebecca Naughton, Daniel Jurnove, Justin Harp, Reid Carper, Nithish Mahalingam, Srini Varkala, Alok Gautam Kumbhare, Satyajit Desai, Venkatesh Ramamurthy, Praneeth Gottumukkala, Girish Bhatia, Kelsey Wildstone, Laurentiu Olariu, Mohammed Ayna, Mike Kendrick, Ricardo Bianchini, Aaron Hurst, Reza Zamani, Xin Li, Gene Oden, Rory Carmichael, Tom Li, Apoorv Gupta, Nilesh Dattani, Lawrence Marwong, Rob Nertney, Jeff Liott, Miro Enev, Divya Ramakrishnan, Ian Buck, Jonah Alben,
- Abstract要約: 数十万のGPUにまたがる大規模な人工知能(AI)トレーニングワークロードには、ユニークなパワーマネジメントの課題があります。
これは、訓練中の消費電力の変動が大きいためである。
AIトレーニングワークロードの安全なスケーリングを継続するためには、そのようなワークロードのパワーを安定化する必要があります。
- 参考スコア(独自算出の注目度): 3.556377885146117
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Artificial Intelligence (AI) training workloads spanning several tens of thousands of GPUs present unique power management challenges. These arise due to the high variability in power consumption during the training. Given the synchronous nature of these jobs, during every iteration there is a computation-heavy phase, where each GPU works on the local data, and a communication-heavy phase where all the GPUs synchronize on the data. Because compute-heavy phases require much more power than communication phases, large power swings occur. The amplitude of these power swings is ever increasing with the increase in the size of training jobs. An even bigger challenge arises from the frequency spectrum of these power swings which, if harmonized with critical frequencies of utilities, can cause physical damage to the power grid infrastructure. Therefore, to continue scaling AI training workloads safely, we need to stabilize the power of such workloads. This paper introduces the challenge with production data and explores innovative solutions across the stack: software, GPU hardware, and datacenter infrastructure. We present the pros and cons of each of these approaches and finally present a multi-pronged approach to solving the challenge. The proposed solutions are rigorously tested using a combination of real hardware and Microsoft's in-house cloud power simulator, providing critical insights into the efficacy of these interventions under real-world conditions.
- Abstract(参考訳): 数十万のGPUにまたがる大規模な人工知能(AI)トレーニングワークロードには、ユニークなパワーマネジメントの課題がある。
これは、訓練中の消費電力の変動が大きいためである。
これらのジョブの同期性を考えると、イテレーション毎に各GPUがローカルデータ上で動作する計算量の多いフェーズと、すべてのGPUがデータ上で同期する通信量の多いフェーズがある。
計算重相は通信相よりもはるかに多くの電力を必要とするため、大きな電力スイングが発生する。
これらのパワースウィングの振幅は、トレーニングジョブの規模の増加とともに増大している。
さらに大きな課題は、これらの電力スイングの周波数スペクトルから発生し、もしユーティリティの臨界周波数と調和すれば、電力グリッドのインフラに物理的に損傷を与える可能性がある。
したがって、AIトレーニングワークロードを安全にスケーリングし続けるためには、そのようなワークロードのパワーを安定化する必要があります。
本稿では,運用データに関する課題を紹介し,ソフトウェア,GPUハードウェア,データセンタインフラストラクチャといった,スタック全体の革新的なソリューションについて検討する。
それぞれのアプローチの長所と短所を提示し、最終的に課題を解決するための多角的アプローチを示す。
提案されたソリューションは、実際のハードウェアとMicrosoftの社内クラウドパワーシミュレータの組み合わせを使って厳格にテストされており、実際の条件下でのこれらの介入の有効性に関する重要な洞察を提供する。
関連論文リスト
- Joint Resource Management for Energy-efficient UAV-assisted SWIPT-MEC: A Deep Reinforcement Learning Approach [50.52139512096988]
6G Internet of Things (IoT)ネットワークは、地上インフラストラクチャが利用できない遠隔地や災害シナリオにおいて、課題に直面している。
本稿では、指向性アンテナにより強化された新しい無人航空機(UAV)支援コンピューティングシステムを提案する。
論文 参考訳(メタデータ) (2025-05-06T06:46:19Z) - Seamless Optical Cloud Computing across Edge-Metro Network for Generative AI [11.50609298355243]
本稿では,エッジ-メトロネットワーク上でシームレスにデプロイ可能な光クラウドコンピューティングシステムを提案する。
入力とモデルを光に変調することで、エッジ-メトロネットワークを介して、幅広いエッジノードが光コンピューティングセンターに直接アクセスすることができる。
実験による検証では、118.6 mW/TOP(テラ演算毎秒)のエネルギー効率を示し、従来の電子ベースのクラウドコンピューティングソリューションと比較して2桁のエネルギー消費を削減した。
論文 参考訳(メタデータ) (2024-12-04T11:49:13Z) - The Unseen AI Disruptions for Power Grids: LLM-Induced Transients [0.5749787074942511]
AIインフラストラクチャは、超低慣性、シャープなパワーサージとディップ、ピーク時のパワー比を特徴としている。
これらの目に見えない特徴は、AIを非常にユニークな負荷にし、電力グリッドの信頼性とレジリエンスに脅威をもたらす。
本稿では、AI電力消費の規模を調査し、様々なシナリオにおけるAI過渡行動を分析し、AIワークロードの振る舞いを記述するための高レベルな数学的モデルを開発し、既存の電力網にもたらす可能性のある課題と機会について論じる。
論文 参考訳(メタデータ) (2024-09-09T05:22:01Z) - I've Got 99 Problems But FLOPS Ain't One [70.3084616806354]
私たちは、機械学習アプリケーションのための1000億ドルのデータセンターを構築するための公開計画から始まり、関連する研究方向を見つけるために、従来からあるアプローチを取っています。
データセンターのようなワークロードが持つものを見つけ、ネットワーク研究に焦点をあてて、その課題を探求します。
我々は、データセンターの構築とそのようなモデルの訓練は技術的に可能であると結論づけるが、これはDC間通信のための新しい広域トランスポート、マルチパストランスポート、および新しいデータセンタートポロジを必要とする。
論文 参考訳(メタデータ) (2024-07-01T10:33:46Z) - Reducing the Barriers to Entry for Foundation Model Training [0.28756346738878485]
最近、世界は機械学習と人工知能のアプリケーションに対する需要が前例のない加速を目撃した。
この需要の急増は、サプライチェーンの基盤技術スタックに多大な負担を課している。
技術エコシステム全体にわたるAIトレーニング基盤の根本的な変更を提案する。
論文 参考訳(メタデータ) (2024-04-12T20:58:25Z) - Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - Collaborative Learning over Wireless Networks: An Introductory Overview [84.09366153693361]
主に、ワイヤレスデバイス間の協調トレーニングに焦点を合わせます。
過去数十年間、多くの分散最適化アルゴリズムが開発されてきた。
データ局所性 – すなわち、各参加デバイスで利用可能なデータがローカルのままである間、共同モデルを協調的にトレーニングすることができる。
論文 参考訳(メタデータ) (2021-12-07T20:15:39Z) - Distributed Optimization using Heterogeneous Compute Systems [0.0]
計算能力の異なる労働者の分散システムにおけるディープニューラルネットワークのトレーニングを検討する。
同期分散トレーニングの簡単な実装により、より高速なワーカは、最も遅いワーカが処理を完了するのを待つことになる。
トレーニング中に各作業員に割り当てられたデータを動的に調整することを提案する。
論文 参考訳(メタデータ) (2021-10-03T11:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。