論文の概要: Evolving HPC services to enable ML workloads on HPE Cray EX
- arxiv url: http://arxiv.org/abs/2507.01880v1
- Date: Wed, 02 Jul 2025 16:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.380457
- Title: Evolving HPC services to enable ML workloads on HPE Cray EX
- Title(参考訳): HPE Cray EX上でMLワークロードを可能にするHPCサービスの進化
- Authors: Stefano Schuppli, Fawzi Mohamed, Henrique Mendonça, Nina Mujkanovic, Elia Palme, Dino Conciatore, Lukas Drescher, Miguel Gila, Pim Witlox, Joost VandeVondele, Maxime Martinasso, Thomas C. Schulthess, Torsten Hoefler,
- Abstract要約: Alps Research Infrastructureは人工知能(AI)と機械学習(ML)の研究者に多大な計算上の優位性を提供する
本稿では,MLワークロードのサポート改善を目的としたHPCサービス機能の拡張に関する最初の調査について述べる。
これらの強化は、HPCシステム上でのMLワークロードの実行を容易にすること、システムのユーザビリティとレジリエンスの向上、MLコミュニティのニーズとの整合性の向上を目的としている。
- 参考スコア(独自算出の注目度): 11.897514952267963
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The Alps Research Infrastructure leverages GH200 technology at scale, featuring 10,752 GPUs. Accessing Alps provides a significant computational advantage for researchers in Artificial Intelligence (AI) and Machine Learning (ML). While Alps serves a broad range of scientific communities, traditional HPC services alone are not sufficient to meet the dynamic needs of the ML community. This paper presents an initial investigation into extending HPC service capabilities to better support ML workloads. We identify key challenges and gaps we have observed since the early-access phase (2023) of Alps by the Swiss AI community and propose several technological enhancements. These include a user environment designed to facilitate the adoption of HPC for ML workloads, balancing performance with flexibility; a utility for rapid performance screening of ML applications during development; observability capabilities and data products for inspecting ongoing large-scale ML workloads; a utility to simplify the vetting of allocated nodes for compute readiness; a service plane infrastructure to deploy various types of workloads, including support and inference services; and a storage infrastructure tailored to the specific needs of ML workloads. These enhancements aim to facilitate the execution of ML workloads on HPC systems, increase system usability and resilience, and better align with the needs of the ML community. We also discuss our current approach to security aspects. This paper concludes by placing these proposals in the broader context of changes in the communities served by HPC infrastructure like ours.
- Abstract(参考訳): Alps Research Infrastructureは10,752のGPUを備えたGH200テクノロジを大規模に活用している。
Alpsへのアクセスは、人工知能(AI)と機械学習(ML)の研究者にとって重要な計算上の優位性を提供する。
Alpsは幅広い科学コミュニティを提供しているが、従来のHPCサービスだけではMLコミュニティの動的なニーズを満たすには不十分である。
本稿では,MLワークロードのサポート改善を目的としたHPCサービス機能の拡張に関する最初の調査について述べる。
スイスのAIコミュニティによるAlpsのアーリーアクセスフェーズ(2023年)以降、私たちが見てきた重要な課題とギャップを特定し、いくつかの技術的拡張を提案します。
これには、MLワークロードへのHPCの採用を促進するように設計されたユーザ環境、パフォーマンスと柔軟性のバランス、開発中のMLアプリケーションの迅速なパフォーマンススクリーニングのためのユーティリティ、進行中の大規模MLワークロードを検査する可観測性機能とデータ製品、計算の可読性のための割り当てノードのベットを簡略化するユーティリティ、サポートと推論サービスを含むさまざまなタイプのワークロードをデプロイするサービスプレーンインフラストラクチャ、MLワークロードの特定のニーズに合わせて調整されたストレージインフラストラクチャが含まれる。
これらの強化は、HPCシステム上でのMLワークロードの実行を容易にすること、システムのユーザビリティとレジリエンスの向上、MLコミュニティのニーズとの整合性の向上を目的としている。
セキュリティ面に対する現在のアプローチについても論じています。
本稿は、これらの提案を、我々のようなHPCインフラによって提供されるコミュニティの変化のより広い文脈に配置することで結論付ける。
関連論文リスト
- Scalable Runtime Architecture for Data-driven, Hybrid HPC and ML Workflow Applications [2.0999841017238063]
従来のHPCと新しいML方法論を組み合わせたハイブリッドは、科学計算を変革している。
本稿では、RADICAL-Pilotを拡張し、サービスベースの実行によりAI-out-HPCをサポートするスケーラブルランタイムシステムのアーキテクチャと実装について述べる。
予備実験の結果,本手法はアーキテクチャ上のオーバーヘッドを最小限に抑えながら,ローカルおよびリモートHPC/クラウドリソース間でMLモデルの同時実行を管理することを示す。
論文 参考訳(メタデータ) (2025-03-17T16:21:48Z) - A practical guide to machine learning interatomic potentials -- Status and future [8.0305939931363]
本稿では機械学習の原子間ポテンシャル(MLIP)に関する幅広い話題について概説する。
これには、最新の進歩、機能、欠点、そしてこの初期段階のMLIPの潜在的な応用の概要が含まれている。
論文 参考訳(メタデータ) (2025-03-12T20:24:01Z) - Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning [49.997801914237094]
我々は、シナジスティックなハードウェアとソフトウェアの共同設計フレームワークであるFire-Flyer AI-HPCアーキテクチャとそのベストプラクティスを紹介する。
ディープラーニング(DL)トレーニングでは、1万のPCIe A100 GPUでFire-Flyer 2をデプロイし、DGX-A100の性能評価を達成し、コストを半分に削減し、エネルギー消費を40%削減しました。
HaiScaleや3FS,HAI-Platformといったソフトウェアスタックを通じて,計算処理と通信を重複させることで,大幅なスケーラビリティを実現しました。
論文 参考訳(メタデータ) (2024-08-26T10:11:56Z) - A General-Purpose Device for Interaction with LLMs [3.052172365469752]
本稿では,大規模言語モデル(LLM)と高度なハードウェアの統合について検討する。
我々は,LLMとの対話性の向上を目的とした汎用デバイスの開発に焦点をあてる。
論文 参考訳(メタデータ) (2024-08-02T23:43:29Z) - LLMs as On-demand Customizable Service [8.440060524215378]
階層型分散大言語モデル(LLM)の概念を導入する。
階層型アプローチを導入することで、LLMをカスタマイズ可能なサービスとしてオンデマンドでアクセスできるようにする。
階層型 LLM の概念は,LLM の能力を活用するために,広範かつクラウドソースのユーザ基盤を向上すると考えられる。
論文 参考訳(メタデータ) (2024-01-29T21:24:10Z) - Quantum Computing Enhanced Service Ecosystem for Simulation in Manufacturing [56.61654656648898]
本稿では,製造シミュレーションのための量子コンピューティングによるサービスエコシステムの枠組みを提案する。
我々は,これらの新しい計算パラダイムを定量的に評価することを目的とした2つの高価値ユースケースを分析した。
論文 参考訳(メタデータ) (2024-01-19T11:04:14Z) - One nine availability of a Photonic Quantum Computer on the Cloud toward
HPC integration [0.8961191069175432]
2022年11月、我々は単一の光子をベースとしたクラウドアクセス可能な汎用量子コンピュータを初めて導入した。
クラウドアクセス可能な量子コンピューティングプラットフォームの設計と実装について説明するとともに、9つの可用性(外部ユーザに対しては6ヶ月間の92、ほとんどのオンラインサービスよりも高い92)を実証する。
この研究は、ハイブリッドHPC-QCインフラにおける量子コンピューティングアクセシビリティとユーザビリティの進歩の基礎となった。
論文 参考訳(メタデータ) (2023-08-28T13:47:39Z) - Mava: a research library for distributed multi-agent reinforcement
learning in JAX [3.982217060857927]
マルチエージェント強化学習(MARL)の研究は本質的に計算コストが高い。
MARLアルゴリズムは一般に設計が複雑であり、正しく実装することが難しい。
JAXで書かれたMARLのための研究ライブラリであるMavaを紹介します。
論文 参考訳(メタデータ) (2021-07-03T16:23:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。