論文の概要: HPC Digital Twins for Evaluating Scheduling Policies, Incentive Structures and their Impact on Power and Cooling
- arxiv url: http://arxiv.org/abs/2508.20016v2
- Date: Thu, 28 Aug 2025 01:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 11:47:01.215074
- Title: HPC Digital Twins for Evaluating Scheduling Policies, Incentive Structures and their Impact on Power and Cooling
- Title(参考訳): HPCディジタル双極子によるスケジューリングポリシ, インセンティブ構造の評価と電力・冷却への影響
- Authors: Matthias Maiterth, Wesley H. Brewer, Jaya S. Kuruvella, Arunavo Dey, Tanzima Z. Islam, Kevin Menear, Dmitry Duplyakin, Rashadul Kabir, Tapasya Patki, Terry Jones, Feiyi Wang,
- Abstract要約: 本稿では,HPCにおけるスケジューリングとディジタル双対の統合について紹介する。
これにより、パラメータの設定やスケジュール決定が物理的資産に与える影響を理解することができる。
- 参考スコア(独自算出の注目度): 0.9681568030660136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Schedulers are critical for optimal resource utilization in high-performance computing. Traditional methods to evaluate schedulers are limited to post-deployment analysis, or simulators, which do not model associated infrastructure. In this work, we present the first-of-its-kind integration of scheduling and digital twins in HPC. This enables what-if studies to understand the impact of parameter configurations and scheduling decisions on the physical assets, even before deployment, or regarching changes not easily realizable in production. We (1) provide the first digital twin framework extended with scheduling capabilities, (2) integrate various top-tier HPC systems given their publicly available datasets, (3) implement extensions to integrate external scheduling simulators. Finally, we show how to (4) implement and evaluate incentive structures, as-well-as (5) evaluate machine learning based scheduling, in such novel digital-twin based meta-framework to prototype scheduling. Our work enables what-if scenarios of HPC systems to evaluate sustainability, and the impact on the simulated system.
- Abstract(参考訳): スケジューリングは、高性能コンピューティングにおける最適なリソース利用に不可欠である。
スケジューラを評価する従来の手法は、関連するインフラストラクチャをモデル化しないポストデプロイ分析やシミュレータに限られている。
本稿では,HPCにおけるスケジューリングとディジタルツインの統合について紹介する。
これにより、実際の研究は、配置前であってもパラメータの設定やスケジュール決定が物理的資産に与える影響を理解したり、本番環境では簡単には実現できない変更を再取得することが可能になる。
1) スケジューリング機能を拡張した最初のデジタルツインフレームワーク,(2) 公開データセットを考慮に入れた上位階層のHPCシステムを統合し,(3) 外部スケジューリングシミュレータを統合する拡張を実装した。
最後に,新しいデジタルツイン方式のメタフレームワークを用いたスケジューリングにおいて,インセンティブ構造の実装と評価を行う方法を示す。
本研究により,HPCシステムの持続可能性とシミュレーションシステムへの影響を評価することができる。
関連論文リスト
- Evaluating the Efficacy of LLM-Based Reasoning for Multiobjective HPC Job Scheduling [6.623504719591386]
大規模言語モデル(LLM)ベースのスケジューラはReActスタイルのフレームワークを使用する(Reason + Act)
Systemはスクラッチパッドメモリを内蔵し、スケジューリング履歴を追跡し、自然言語のフィードバックを通じて決定を洗練する。
我々は,OpenAI の O4-Mini と Anthropic の Claude 3.7 を用いて,実世界の7つの HPC ワークロードシナリオに対してアプローチを評価した。
論文 参考訳(メタデータ) (2025-05-29T14:25:29Z) - Data Scaling Laws for End-to-End Autonomous Driving [83.85463296830743]
16時間から8192時間に及ぶ内部駆動データセット上での簡易エンド・ツー・エンド駆動アーキテクチャの性能評価を行った。
具体的には、目標の性能向上を達成するために、どの程度のトレーニングデータが必要かを調査する。
論文 参考訳(メタデータ) (2025-04-06T03:23:48Z) - Rethinking Resource Management in Edge Learning: A Joint Pre-training and Fine-tuning Design Paradigm [87.47506806135746]
一部のアプリケーションでは、エッジラーニングは、スクラッチから新しい2段階ラーニングへと焦点を移している。
本稿では,2段階のエッジ学習システムにおける共同コミュニケーションと計算資源管理の問題について考察する。
事前学習および微調整段階に対する共同資源管理の提案は,システム性能のトレードオフをうまくバランスさせることが示されている。
論文 参考訳(メタデータ) (2024-04-01T00:21:11Z) - A digital twin framework for civil engineering structures [0.6249768559720122]
デジタルツインの概念は、条件ベースの予測保守パラダイムを前進させる魅力的な機会である。
本研究は, 土木構造物の健康モニタリング, 保守, 管理計画に対する予測的ディジタルツインアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-02T21:38:36Z) - A Dynamic Feedforward Control Strategy for Energy-efficient Building
System Operation [59.56144813928478]
現在の制御戦略と最適化アルゴリズムでは、そのほとんどはリアルタイムフィードバックから情報を受け取ることに依存している。
本稿では,システム制御のためのシステム特性を同時に構築することによる,ダイナミックな事前知識を組み込む,エンジニアフレンドリな制御戦略フレームワークを提案する。
典型的な制御戦略でシステム制御を加熱するケースでテストしたところ、我々のフレームワークは15%の省エネ性を持っていることがわかった。
論文 参考訳(メタデータ) (2023-01-23T09:07:07Z) - Federated Stochastic Gradient Descent Begets Self-Induced Momentum [151.4322255230084]
Federated Learning(FL)は、モバイルエッジシステムに適用可能な、新興の機械学習手法である。
このような条件下での勾配降下(SGD)への走行は,大域的な集約プロセスに運動量的な項を加えるとみなすことができる。
論文 参考訳(メタデータ) (2022-02-17T02:01:37Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。
本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:39:09Z) - A Scalable and Reproducible System-on-Chip Simulation for Reinforcement
Learning [0.0]
本稿では,高忠実度Domain-Specific System-on-Chip (DSSoC) アプリケーションに適した,スケーラブルで再現可能なオープン環境である gym-ds3 を提案する。
シミュレーションは階層的ジョブをヘテロジニアスなsystem-on-chip (soc)プロセッサにスケジュールし、システムを強化学習研究に橋渡しする。
論文 参考訳(メタデータ) (2021-04-27T13:46:57Z) - Deep Reinforcement Agent for Scheduling in HPC [1.6569798882223303]
クラスタスケジューラは、利用可能なシステムリソースにいつ、どのユーザジョブを割り当てるべきかを決定する。
本研究では,深層強化学習を活用したDRAS(Deep Reinforcement Agent for Scheduling)と呼ばれる自動HPCスケジューリングエージェントを提案する。
論文 参考訳(メタデータ) (2021-02-11T20:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。