論文の概要: Optimizing Checkpoint-Restart Mechanisms for HPC with DMTCP in Containers at NERSC
- arxiv url: http://arxiv.org/abs/2407.19117v1
- Date: Fri, 26 Jul 2024 22:42:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 19:40:49.330697
- Title: Optimizing Checkpoint-Restart Mechanisms for HPC with DMTCP in Containers at NERSC
- Title(参考訳): NERSCにおけるDMTCPを用いたHPCのチェックポイント再起動機構の最適化
- Authors: Madan Timalsina, Lisa Gerhardt, Nicholas Tyler, Johannes P. Blaschke, William Arndt,
- Abstract要約: この研究は、最先端のスーパーコンピュータシステムであるNERSC Perlmutter上で動作する現実世界のアプリケーションに基礎を置いている。
我々は,HPCにおける複雑で長い計算を管理する上でのチェックポイント再起動(C/R)の利点について論じ,その効率性と信頼性を強調した。
- 参考スコア(独自算出の注目度): 0.07767214588770123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an in-depth examination of checkpoint-restart mechanisms in High-Performance Computing (HPC). It focuses on the use of Distributed MultiThreaded CheckPointing (DMTCP) in various computational settings, including both within and outside of containers. The study is grounded in real-world applications running on NERSC Perlmutter, a state-of-the-art supercomputing system. We discuss the advantages of checkpoint-restart (C/R) in managing complex and lengthy computations in HPC, highlighting its efficiency and reliability in such environments. The role of DMTCP in enhancing these workflows, especially in multi-threaded and distributed applications, is thoroughly explored. Additionally, the paper delves into the use of HPC containers, such as Shifter and Podman-HPC, which aid in the management of computational tasks, ensuring uniform performance across different environments. The methods, results, and potential future directions of this research, including its application in various scientific domains, are also covered, showcasing the critical advancements made in computational methodologies through this study.
- Abstract(参考訳): 本稿では,ハイパフォーマンスコンピューティング(HPC)におけるチェックポイント再起動機構について詳細に検討する。
分散マルチスレッドチェックポイント(DMTCP)をコンテナ内と外部の両方を含むさまざまな計算設定で使用することに焦点を当てている。
この研究は、最先端のスーパーコンピュータシステムであるNERSC Perlmutter上で動作する現実世界のアプリケーションに基礎を置いている。
我々は,HPCにおける複雑で長い計算を管理する上でのチェックポイント再起動(C/R)の利点について論じ,その効率性と信頼性を強調した。
DMTCPがこれらのワークフロー、特にマルチスレッドおよび分散アプリケーションに果たす役割は、徹底的に検討されている。
さらにこの論文では、ShifterやPodman-HPCといったHPCコンテナの利用も検討している。
この研究の方法、成果、将来的な方向性についても、様々な科学的分野に応用することを含め、この研究を通じて計算手法における重要な進歩を示す。
関連論文リスト
- Integrating Quantum Computing Resources into Scientific HPC Ecosystems [29.1407119677928]
量子コンピューティングは、量子化学、最適化、人工知能といった分野における科学的な発見を促進する大きな可能性を秘めている。
QCは、ノイズの多い中間スケールの量子時代の固有の外部ノイズ問題のために、課題に直面している。
本稿では,新たな計算可能性の解き放つ計画の概要を述べる。
論文 参考訳(メタデータ) (2024-08-28T22:44:54Z) - Integration of Scanning Probe Microscope with High-Performance Computing: fixed-policy and reward-driven workflows implementation [4.595863595869587]
ローカルコンピュータまたはリモート高性能コンピュータから走査顕微鏡を制御できるPythonインタフェースライブラリを構築した。
私たちの研究は、ルーチン操作と機械学習による自律的な科学的発見の両方のために、自動化顕微鏡を構築するための完全なインフラストラクチャを提供します。
論文 参考訳(メタデータ) (2024-05-20T18:08:34Z) - Unsupervised KPIs-Based Clustering of Jobs in HPC Data Centers [0.0]
キーパフォーマンスインジケータ(KPI)は、CPU使用量、メモリ使用量、ネットワークトラフィック、その他のハードウェアを監視するセンサに関する情報を提供する、膨大な数の監視タスクを生成する。
本論文の主な貢献は、HPCシステムにおいて、各ジョブの振る舞いに応じて、どのメトリック/s(KPI)が、どのタイプのジョブを識別/分類するのに最も適しているかを特定することである。
我々は,ネットワーク(インタフェース)トラフィック監視に関連する指標(KPI)がクラスタHPCジョブの結合と分離に最適であり,階層的クラスタリングアルゴリズムがこのタスクに最も適していると結論づけた。
論文 参考訳(メタデータ) (2023-12-11T17:31:46Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Pointerformer: Deep Reinforced Multi-Pointer Transformer for the
Traveling Salesman Problem [67.32731657297377]
トラベリングセールスマン問題(TSP)は、もともと輸送と物流の領域で発生した古典的な経路最適化問題である。
近年, 深層強化学習は高い推論効率のため, TSP の解法として採用されている。
本稿では,多点変換器をベースとした新しいエンドツーエンドDRL手法であるPointerformerを提案する。
論文 参考訳(メタデータ) (2023-04-19T03:48:32Z) - AI-coupled HPC Workflows [1.5469452301122175]
従来のHPCにAI/MLモデルを導入することは、非常に正確なモデリングを可能にしてきた。
AI/MLモデルをHPC計算に統合するさまざまなモードにより、さまざまなタイプのAI結合型HPCが生成される。
論文 参考訳(メタデータ) (2022-08-24T19:16:43Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - CoCoMoT: Conformance Checking of Multi-Perspective Processes via SMT
(Extended Version) [62.96267257163426]
我々はCoCoMoT(Computing Conformance Modulo Theories)フレームワークを紹介する。
まず、純粋な制御フロー設定で研究したSATベースのエンコーディングを、データ認識ケースに持ち上げる方法を示す。
次に,プロパティ保存型クラスタリングの概念に基づく新しい前処理手法を提案する。
論文 参考訳(メタデータ) (2021-03-18T20:22:50Z) - The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。
MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-03-02T18:59:56Z) - Towards AIOps in Edge Computing Environments [60.27785717687999]
本稿では,異種分散環境に適用可能なaiopsプラットフォームのシステム設計について述べる。
高頻度でメトリクスを収集し、エッジデバイス上で特定の異常検出アルゴリズムを直接実行することが可能である。
論文 参考訳(メタデータ) (2021-02-12T09:33:00Z) - Integrating Deep Learning in Domain Sciences at Exascale [2.241545093375334]
我々は,大規模HPCシステム上でディープラーニングモデルとアプリケーションを効率的に動作させるための既存パッケージの評価を行った。
本稿では,現在の大規模異種システムに対する新しい非同期並列化と最適化手法を提案する。
従来の計算集約型アプリケーションとデータ集約型アプリケーションをAIで拡張するための図表と潜在的なソリューションを提案する。
論文 参考訳(メタデータ) (2020-11-23T03:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。