論文の概要: Online Energy Optimization in GPUs: A Multi-Armed Bandit Approach
- arxiv url: http://arxiv.org/abs/2410.11855v1
- Date: Thu, 03 Oct 2024 17:05:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-20 09:41:04.693647
- Title: Online Energy Optimization in GPUs: A Multi-Armed Bandit Approach
- Title(参考訳): GPUにおけるオンラインエネルギー最適化:マルチアーマッドバンドアプローチ
- Authors: Xiongxiao Xu, Solomon Abera Bekele, Brice Videau, Kai Shu,
- Abstract要約: エネルギー消費は、将来のコンピューティングアーキテクチャの開発において重要な設計基準と制限要因となっている。
本稿では,HPCシナリオにおけるGPUのための新しい,実用的なオンラインエネルギー最適化問題について検討する。
EnergyUCBは、GPUコア周波数をリアルタイムで動的に調整し、パフォーマンスへの影響を最小限に抑えるように設計されている。
- 参考スコア(独自算出の注目度): 15.28157695259566
- License:
- Abstract: Energy consumption has become a critical design metric and a limiting factor in the development of future computing architectures, from small wearable devices to large-scale leadership computing facilities. The predominant methods in energy management optimization are focused on CPUs. However, GPUs are increasingly significant and account for the majority of energy consumption in heterogeneous high performance computing (HPC) systems. Moreover, they typically rely on either purely offline training or a hybrid of offline and online training, which are impractical and lead to energy loss during data collection. Therefore, this paper studies a novel and practical online energy optimization problem for GPUs in HPC scenarios. The problem is challenging due to the inherent performance-energy trade-offs of GPUs, the exploration & exploitation dilemma across frequencies, and the lack of explicit performance counters in GPUs. To address these challenges, we formulate the online energy consumption optimization problem as a multi-armed bandit framework and develop a novel bandit based framework EnergyUCB. EnergyUCB is designed to dynamically adjust GPU core frequencies in real-time, reducing energy consumption with minimal impact on performance. Specifically, the proposed framework EnergyUCB (1) balances the performance-energy trade-off in the reward function, (2) effectively navigates the exploration & exploitation dilemma when adjusting GPU core frequencies online, and (3) leverages the ratio of GPU core utilization to uncore utilization as a real-time GPU performance metric. Experiments on a wide range of real-world HPC benchmarks demonstrate that EnergyUCB can achieve substantial energy savings. The code of EnergyUCB is available at https://github.com/XiongxiaoXu/EnergyUCB-Bandit.
- Abstract(参考訳): エネルギー消費は、小型ウェアラブルデバイスから大規模リーダーシップコンピューティング施設まで、将来のコンピューティングアーキテクチャの発展における重要な設計指標であり、制限要因となっている。
エネルギー管理最適化における主要な手法はCPUに重点を置いている。
しかし、GPUはますます重要になってきており、ヘテロジニアスハイパフォーマンスコンピューティング(HPC)システムにおけるエネルギー消費の大部分を占めている。
さらに、それらは通常、純粋なオフライントレーニングか、オフライントレーニングとオンライントレーニングのハイブリッドに頼っている。
そこで本研究では,HPCシナリオにおけるGPUのための新しい,実用的なオンラインエネルギー最適化問題について検討する。
問題は、GPUの固有のパフォーマンスとエネルギーのトレードオフ、周波数間の探索とエクスプロイトのジレンマ、GPUにおける明示的なパフォーマンスカウンタの欠如による。
これらの課題に対処するため、オンラインエネルギー消費最適化問題をマルチアームバンディットフレームワークとして定式化し、新しいバンディットベースフレームワークであるEnergyUCBを開発した。
EnergyUCBは、GPUコア周波数をリアルタイムで動的に調整し、パフォーマンスへの影響を最小限に抑えるように設計されている。
具体的には、提案フレームワークであるEnergyUCB(1)は、報酬関数における性能-エネルギートレードオフのバランスをとり、(2)GPUコア周波数をオンラインで調整する際の探索・利用ジレンマを効果的にナビゲートし、(3)GPUコア利用率と非コア利用率の比率をリアルタイムGPUパフォーマンス指標として活用する。
幅広い実世界のHPCベンチマークの実験では、EnergyUCBが相当な省エネを達成できることが示されている。
EnergyUCBのコードはhttps://github.com/XiongxiaoXu/EnergyUCB-Banditで公開されている。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Learning Iterative Reasoning through Energy Diffusion [90.24765095498392]
我々は,エネルギー拡散による反復的推論(IRED)を紹介した。
IREDは入力条件と所望の出力の間の制約を表現するためにエネルギー関数を学ぶ。
IREDは、連続空間推論、離散空間推論、計画タスクにおいて既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-17T03:36:47Z) - Sustainable Supercomputing for AI: GPU Power Capping at HPC Scale [20.30679358575365]
最近の大規模言語モデルは、トレーニングとデプロイにかなりのリソースを必要とする。
適切なパワーキャッピング量では、温度とパワードローの両方に顕著な低下が見られる。
私たちの研究は、スーパーコンピュータスケールでのGPUパワーキャッピングの効果を、初めて実施し、より詳細に分析したものです。
論文 参考訳(メタデータ) (2024-02-25T02:22:34Z) - PolyThrottle: Energy-efficient Neural Network Inference on Edge Devices [10.01838504586422]
ML駆動システムの連続運転は、推論中にかなりのエネルギー消費をもたらす。
本稿では,GPU,メモリ,CPU周波数などのデバイス上のハードウェア要素の構成が,通常の微調整によるNN推論のエネルギー消費に与える影響について検討する。
本稿では,Constrained Bayesian Optimization を用いて,各ハードウェアコンポーネント間の構成をエネルギー保存的に最適化するPolyThrottleを提案する。
論文 参考訳(メタデータ) (2023-10-30T20:19:41Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Sustainable AIGC Workload Scheduling of Geo-Distributed Data Centers: A
Multi-Agent Reinforcement Learning Approach [48.18355658448509]
生成的人工知能の最近の進歩は、機械学習トレーニングの需要が急増し、エネルギー消費の大幅な増加によるコスト負担と環境問題を引き起こしている。
地理的に分散したクラウドデータセンタ間でのトレーニングジョブのスケジューリングは、安価で低炭素エネルギーのコンピューティング能力の使用を最適化する機会を浮き彫りにする。
本研究では,実生活におけるワークロードパターン,エネルギー価格,炭素強度を組み込んだクラウドシステムと対話することで,マルチエージェント強化学習とアクタクリティカルな手法に基づく最適協調スケジューリング戦略の学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-17T02:12:30Z) - Precise Energy Consumption Measurements of Heterogeneous Artificial
Intelligence Workloads [0.534434568021034]
本稿では,異なるタイプの計算ノード上でのディープラーニングモデルの典型的な2つの応用のエネルギー消費の測定を行う。
我々のアプローチの1つの利点は、スーパーコンピュータの全ユーザーがエネルギー消費に関する情報を利用できることである。
論文 参考訳(メタデータ) (2022-12-03T21:40:55Z) - Great Power, Great Responsibility: Recommendations for Reducing Energy
for Training Language Models [8.927248087602942]
一般的なNLPアプリケーションのエネルギー消費を削減できる技術について検討する。
これらの手法は、訓練言語モデルや推論に使用する際のエネルギー消費を著しく減少させる可能性がある。
論文 参考訳(メタデータ) (2022-05-19T16:03:55Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - The Architectural Implications of Distributed Reinforcement Learning on
CPU-GPU Systems [45.479582612113205]
CPU-GPUシステムにおけるRLトレーニングの性能と電力効率を改善する方法について述べる。
我々は,最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化を行う。
また、新しいシステム設計メトリック、CPU/GPU比を導入し、CPUリソースとGPUリソースの最適なバランスを見つける方法を紹介します。
論文 参考訳(メタデータ) (2020-12-08T04:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。