論文の概要: Improving the Efficiency of a Deep Reinforcement Learning-Based Power Management System for HPC Clusters Using Curriculum Learning
- arxiv url: http://arxiv.org/abs/2502.20348v2
- Date: Fri, 14 Mar 2025 07:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:02:56.654364
- Title: Improving the Efficiency of a Deep Reinforcement Learning-Based Power Management System for HPC Clusters Using Curriculum Learning
- Title(参考訳): カリキュラム学習を用いたHPCクラスタの深層強化学習に基づく電力管理システムの効率化
- Authors: Thomas Budiarjo, Santana Yuda Pradata, Kadek Gemilang Santiyuda, Muhammad Alfian Amrizal, Reza Pulungan, Hiroyuki Takizawa,
- Abstract要約: 機械学習はノードのオン/オフに最適な時間を決定することを約束している。
本研究では、カリキュラム学習(CL)を統合することで、HPC電力管理のための深層強化学習(DRL)エージェントの性能を向上させる。
実験結果から, 無駄なエネルギー使用量を減らすという点で, 容易にハードなカリキュラムは, 他の訓練命令よりも優れていたことが確認された。
- 参考スコア(独自算出の注目度): 1.1380162891529537
- License:
- Abstract: High energy consumption remains a key challenge in high-performance computing (HPC) systems, which often feature hundreds or thousands of nodes drawing substantial power even in idle or standby modes. Although powering down unused nodes can improve energy efficiency, choosing the wrong time to do so can degrade quality of service by delaying job execution. Machine learning, in particular reinforcement learning (RL), has shown promise in determining optimal times to switch nodes on or off. In this study, we enhance the performance of a deep reinforcement learning (DRL) agent for HPC power management by integrating curriculum learning (CL), a training approach that introduces tasks with gradually increasing difficulty. Using the Batsim-py simulation framework, we compare the proposed CL-based agent to both a baseline DRL method (without CL) and the conventional fixed-time timeout strategy. Experimental results confirm that an easy-to-hard curriculum outperforms other training orders in terms of reducing wasted energy usage. The best agent achieves a 3.73% energy reduction over the baseline DRL method and a 4.66% improvement compared to the best timeout configuration (shutdown every 15 minutes of idle time). In addition, it reduces average job waiting time by 9.24% and maintains a higher job-filling rate, indicating more effective resource utilization. Sensitivity tests across various switch-on durations, power levels, and cluster sizes further reveal the agent's adaptability to changing system parameters without retraining. These findings demonstrate that curriculum learning can significantly improve DRL-based power management in HPC, balancing energy savings, quality of service, and robustness to diverse configurations.
- Abstract(参考訳): 高エネルギー消費はハイパフォーマンスコンピューティング(HPC)システムにおいて依然として重要な課題であり、アイドルモードやスタンバイモードでも数百から数千のノードがかなりの電力を消費する。
未使用ノードのパワーダウンはエネルギー効率を改善することができるが、間違った時間を選択すると、ジョブ実行を遅らせることでサービスの品質を劣化させる可能性がある。
機械学習、特に強化学習(RL)は、ノードをオン/オフに切り替える最適な時間を決定することを約束している。
本研究では,カリキュラム学習(CL)を統合することで,HPC電力管理のための深層強化学習(DRL)エージェントの性能向上を図る。
Batsim-py シミュレーションフレームワークを用いて,提案した CL-based agent とベースラインDRL 法 (CLなし) と従来の固定時間タイムアウト戦略を比較した。
実験結果から, 無駄なエネルギー使用量を減らすという点で, 容易にハードなカリキュラムは, 他の訓練命令よりも優れていたことが確認された。
ベストエージェントは、ベースラインDRL法よりも3.73%のエネルギー削減を達成し、最高のタイムアウト構成に比べて4.66%改善する(アイドル時間15分毎にシャットダウン)。
さらに、平均ジョブ待ち時間を9.24%削減し、より高いジョブ充足率を維持し、より効果的なリソース利用を示している。
様々なスイッチオン期間、電力レベル、クラスタサイズに対する感度テストにより、エージェントが再トレーニングせずにシステムパラメータの変更に適応できることが明らかになる。
これらの結果から,カリキュラム学習は,HPCにおけるDRLベースの電力管理を大幅に改善し,省エネ,サービス品質,各種構成に対する堅牢性を両立させることができることがわかった。
関連論文リスト
- SPEQ: Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning [51.10866035483686]
最近のオフポリシーアルゴリズムは、更新からデータへの比率を高め、環境相互作用ごとにより勾配の更新を行うことで、サンプル効率を向上させる。
これにより、サンプル効率が向上するが、必要な勾配更新の数が増えるため、計算コストが大幅に向上する。
本稿では,学習を異なる学習段階に分割することで,計算効率を向上させるためのサンプル効率向上手法を提案する。
論文 参考訳(メタデータ) (2025-01-15T09:04:19Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Optimizing Attention and Cognitive Control Costs Using Temporally-Layered Architectures [0.9831489366502302]
生物学的制御は、計算エネルギー支出と決定頻度を最適化しながら、顕著な性能を達成する。
我々は,強化学習環境においてエージェントが利用できる決定数や計算エネルギーを制限する決定境界マルコフ決定プロセス(DB-MDP)を提案する。
生物学的に着想を得たTLA(Temporally Layered Architecture)を導入し、エージェントが時間スケールとエネルギー要求の異なる2つの層を通じて計算コストを管理できるようにする。
論文 参考訳(メタデータ) (2023-05-30T02:59:06Z) - Doing More by Doing Less: How Structured Partial Backpropagation
Improves Deep Learning Clusters [9.17259958324486]
ディープラーニングモデルのトレーニングは、リソース集約的で、重要な計算、メモリ、ネットワークリソースを消費する。
本研究では,分散トレーニングにおける個々の作業者のバックプロパゲーション量を制御する手法である構造化部分バックプロパゲーション(SPB)を提案する。
JigSawは,大規模クラスタの効率を最大28%向上できることがわかった。
論文 参考訳(メタデータ) (2021-11-20T20:34:26Z) - Improving Robustness of Reinforcement Learning for Power System Control
with Adversarial Training [71.7750435554693]
電力系統制御のために提案された最先端のRLエージェントが敵攻撃に対して脆弱であることを示す。
具体的には、敵のマルコフ決定プロセスを用いて攻撃方針を学習し、攻撃の有効性を実証する。
本稿では,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。
論文 参考訳(メタデータ) (2021-10-18T00:50:34Z) - Deep Reinforcement Learning Based Multidimensional Resource Management
for Energy Harvesting Cognitive NOMA Communications [64.1076645382049]
エネルギー収穫(EH)、認知無線(CR)、非直交多重アクセス(NOMA)の組み合わせはエネルギー効率を向上させるための有望な解決策である。
本稿では,決定論的CR-NOMA IoTシステムにおけるスペクトル,エネルギー,時間資源管理について検討する。
論文 参考訳(メタデータ) (2021-09-17T08:55:48Z) - Smart Scheduling based on Deep Reinforcement Learning for Cellular
Networks [18.04856086228028]
深部強化学習(DRL)に基づくスマートスケジューリング手法を提案する。
実装フレンドリーな設計、すなわちエージェントのためのスケーラブルなニューラルネットワーク設計と仮想環境トレーニングフレームワークを提供する。
本研究では, DRLベースのスマートスケジューリングが従来のスケジューリング方式を上回り, 実用システムにも適用できることを示した。
論文 参考訳(メタデータ) (2021-03-22T02:09:16Z) - Low-Precision Reinforcement Learning [63.930246183244705]
教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
論文 参考訳(メタデータ) (2021-02-26T16:16:28Z) - Intelligent Resource Allocation in Dense LoRa Networks using Deep
Reinforcement Learning [5.035252201462008]
LoRaDRLのマルチチャネル方式を提案する。
その結果,提案アルゴリズムは長距離広帯域ネットワーク (LoRaWAN) のパケット配信率 (PDR) を有意に改善するだけでなく,
また,LoRaDRLの出力により最先端技術の性能が向上し,PDRでは500%以上の改善が得られた。
論文 参考訳(メタデータ) (2020-12-22T07:41:47Z) - A Relearning Approach to Reinforcement Learning for Control of Smart
Buildings [1.8799681615947088]
本稿では、漸進的深層学習(RL)を用いた制御方針の連続的再学習が、非定常過程におけるポリシー学習を改善することを実証する。
我々は,全体の快適さを犠牲にすることなく,建築エネルギーを同時に削減するインクリメンタルRL技術を開発した。
論文 参考訳(メタデータ) (2020-08-04T23:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。