論文の概要: Hydra: Brokering Cloud and HPC Resources to Support the Execution of Heterogeneous Workloads at Scale
- arxiv url: http://arxiv.org/abs/2407.11967v1
- Date: Tue, 16 Jul 2024 17:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 13:43:56.089977
- Title: Hydra: Brokering Cloud and HPC Resources to Support the Execution of Heterogeneous Workloads at Scale
- Title(参考訳): Hydra: 大規模ワークロードの実行をサポートするクラウドとHPCリソースのブローカ化
- Authors: Aymen Alsaadi, Shantenu Jha, Matteo Turilli,
- Abstract要約: Hydraは、商用プライベートクラウドとHPCプラットフォームからリソースを同時に取得できる、クラウド内のHPCブローカシステムである。
商用プライベートクラウドとHPCプラットフォームからリソースを同時取得可能な,クラウド内HPCブローカシステムであるHydraを提案する。
- 参考スコア(独自算出の注目度): 1.474723404975345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific discovery increasingly depends on middleware that enables the execution of heterogeneous workflows on heterogeneous platforms One of the main challenges is to design software components that integrate within the existing ecosystem to enable scale and performance across cloud and high-performance computing HPC platforms Researchers are met with a varied computing landscape which includes services available on commercial cloud platforms data and network capabilities specifically designed for scientific discovery on government-sponsored cloud platforms and scale and performance on HPC platforms We present Hydra an intra cross-cloud HPC brokering system capable of concurrently acquiring resources from commercial private cloud and HPC platforms and managing the execution of heterogeneous workflow applications on those resources This paper offers four main contributions (1) the design of brokering capabilities in the presence of task platform resource and middleware heterogeneity; (2) a reference implementation of that design with Hydra; (3) an experimental characterization of Hydra s overheads and strong weak scaling with heterogeneous workloads and platforms and, (4) the implementation of a workflow that models sea rise with Hydra and its scaling on cloud and HPC platforms
- Abstract(参考訳): 科学的発見はますます、ヘテロジニアスなプラットフォーム上でのヘテロジニアスなワークフローの実行を可能にするミドルウェアに依存しています。主な課題の1つは、既存のエコシステム内で統合されたソフトウェアコンポーネントを設計し、クラウドおよびハイパフォーマンスなコンピューティングを実現することである。HPCプラットフォームの研究者は、商用クラウドプラットフォーム上で利用可能なサービスを含む様々なコンピューティングの展望とHPCプラットフォーム上での科学的な発見とHPCプラットフォーム上でのスケールとパフォーマンスのために設計されたネットワーク機能、Hydraを現在、商用プライベートクラウドとHPCプラットフォームからリソースを同時取得し、それらのリソース上でヘテロジニアスなワークフローアプリケーションの実行を管理することができるクラウド内HPCブローカシステムを提供しています。
関連論文リスト
- Transforming the Hybrid Cloud for Emerging AI Workloads [81.15269563290326]
このホワイトペーパーでは、AIワークロードの複雑さの増大に対応するために、ハイブリッドクラウドシステムを変革することを想定している。
提案したフレームワークは、エネルギー効率、性能、コスト効率において重要な課題に対処する。
この共同イニシアチブは、ハイブリッドクラウドをセキュアで効率的で持続可能なプラットフォームとして確立することを目的としています。
論文 参考訳(メタデータ) (2024-11-20T11:57:43Z) - Exascale Workflow Applications and Middleware: An ExaWorks Retrospective [3.4423220997316593]
多様な大規模プラットフォーム上で異種ソフトウェアコンポーネントをコーディネートし、デプロイするという課題に対処するExaWorksプロジェクトを紹介します。
我々はジョブ管理抽象化APIであるSoftware Development Toolkit(SDK)と、ジョブの提出と監視のための最小限のインターフェースであるPSI/Jを開発した。
当社のプロジェクトでは,ワークフローコミュニティや大規模コンピューティング施設,HPCプラットフォームベンダと連携して,エクサスケールでの要件を持続的に解決する方法について論じる。
論文 参考訳(メタデータ) (2024-11-16T00:10:53Z) - GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI [64.57616646552869]
本稿では、モデル、データソース、パイプラインを統合し、複雑で多様なタスクを解決するためにパフォーマンスを向上させるために使用される協調AIシステムについて検討する。
我々は、LLMベースのフレームワークであるGenAgentを紹介した。
その結果、GenAgentは実行レベルおよびタスクレベルの評価においてベースラインアプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning [49.997801914237094]
我々は、シナジスティックなハードウェアとソフトウェアの共同設計フレームワークであるFire-Flyer AI-HPCアーキテクチャとそのベストプラクティスを紹介する。
ディープラーニング(DL)トレーニングでは、1万のPCIe A100 GPUでFire-Flyer 2をデプロイし、DGX-A100の性能評価を達成し、コストを半分に削減し、エネルギー消費を40%削減しました。
HaiScaleや3FS,HAI-Platformといったソフトウェアスタックを通じて,計算処理と通信を重複させることで,大幅なスケーラビリティを実現しました。
論文 参考訳(メタデータ) (2024-08-26T10:11:56Z) - ExaWorks Software Development Kit: A Robust and Scalable Collection of Interoperable Workflow Technologies [3.1805622006446397]
不均一な科学的発見は、ますます高性能なコンピューティングプラットフォーム上での実行を必要としている。
私たちはExaWorks Software Development Kit(SDK)の開発でこの問題に対処することに貢献しました。
SDKは、現在のベストプラクティスに従って開発された一連のワークフロー技術であり、特にHPCプラットフォームで動作するように設計されている。
論文 参考訳(メタデータ) (2024-07-23T17:00:09Z) - One nine availability of a Photonic Quantum Computer on the Cloud toward
HPC integration [0.8961191069175432]
2022年11月、我々は単一の光子をベースとしたクラウドアクセス可能な汎用量子コンピュータを初めて導入した。
クラウドアクセス可能な量子コンピューティングプラットフォームの設計と実装について説明するとともに、9つの可用性(外部ユーザに対しては6ヶ月間の92、ほとんどのオンラインサービスよりも高い92)を実証する。
この研究は、ハイブリッドHPC-QCインフラにおける量子コンピューティングアクセシビリティとユーザビリティの進歩の基礎となった。
論文 参考訳(メタデータ) (2023-08-28T13:47:39Z) - A Transformer Framework for Data Fusion and Multi-Task Learning in Smart
Cities [99.56635097352628]
本稿では,新興スマートシティを対象としたトランスフォーマーベースのAIシステムを提案する。
ほぼ全ての入力データと出力タスクタイプをサポートし、現在のS&CCをサポートする。
S&CC環境を代表する多様なタスクセットを学習して実演する。
論文 参考訳(メタデータ) (2022-11-18T20:43:09Z) - YMIR: A Rapid Data-centric Development Platform for Vision Applications [82.67319997259622]
本稿では,コンピュータビジョンアプリケーションの開発を迅速化するオープンソースプラットフォームについて紹介する。
このプラットフォームは、効率的なデータ開発を機械学習開発プロセスの中心に置く。
論文 参考訳(メタデータ) (2021-11-19T05:02:55Z) - Secure Platform for Processing Sensitive Data on Shared HPC Systems [0.0]
高性能コンピューティングクラスタは、機密データを処理するための課題を提起する。
本研究では,従来のマルチテナント高速コンピューティングクラスタ上でセキュアな計算環境を構築するための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-26T18:30:33Z) - Towards AIOps in Edge Computing Environments [60.27785717687999]
本稿では,異種分散環境に適用可能なaiopsプラットフォームのシステム設計について述べる。
高頻度でメトリクスを収集し、エッジデバイス上で特定の異常検出アルゴリズムを直接実行することが可能である。
論文 参考訳(メタデータ) (2021-02-12T09:33:00Z) - Integrating Deep Learning in Domain Sciences at Exascale [2.241545093375334]
我々は,大規模HPCシステム上でディープラーニングモデルとアプリケーションを効率的に動作させるための既存パッケージの評価を行った。
本稿では,現在の大規模異種システムに対する新しい非同期並列化と最適化手法を提案する。
従来の計算集約型アプリケーションとデータ集約型アプリケーションをAIで拡張するための図表と潜在的なソリューションを提案する。
論文 参考訳(メタデータ) (2020-11-23T03:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。