論文の概要: ExaWorks Software Development Kit: A Robust and Scalable Collection of Interoperable Workflow Technologies
- arxiv url: http://arxiv.org/abs/2407.16646v1
- Date: Tue, 23 Jul 2024 17:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 16:26:03.320494
- Title: ExaWorks Software Development Kit: A Robust and Scalable Collection of Interoperable Workflow Technologies
- Title(参考訳): ExaWorks Software Development Kit - 相互運用可能なワークフロー技術のロバストでスケーラブルなコレクション
- Authors: Matteo Turilli, Mihael Hategan-Marandiuc, Mikhail Titov, Ketan Maheshwari, Aymen Alsaadi, Andre Merzky, Ramon Arambula, Mikhail Zakharchanka, Matt Cowan, Justin M. Wozniak, Andreas Wilke, Ozgur Ozan Kilic, Kyle Chard, Rafael Ferreira da Silva, Shantenu Jha, Daniel Laney,
- Abstract要約: 不均一な科学的発見は、ますます高性能なコンピューティングプラットフォーム上での実行を必要としている。
私たちはExaWorks Software Development Kit(SDK)の開発でこの問題に対処することに貢献しました。
SDKは、現在のベストプラクティスに従って開発された一連のワークフロー技術であり、特にHPCプラットフォームで動作するように設計されている。
- 参考スコア(独自算出の注目度): 3.1805622006446397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific discovery increasingly requires executing heterogeneous scientific workflows on high-performance computing (HPC) platforms. Heterogeneous workflows contain different types of tasks (e.g., simulation, analysis, and learning) that need to be mapped, scheduled, and launched on different computing. That requires a software stack that enables users to code their workflows and automate resource management and workflow execution. Currently, there are many workflow technologies with diverse levels of robustness and capabilities, and users face difficult choices of software that can effectively and efficiently support their use cases on HPC machines, especially when considering the latest exascale platforms. We contributed to addressing this issue by developing the ExaWorks Software Development Kit (SDK). The SDK is a curated collection of workflow technologies engineered following current best practices and specifically designed to work on HPC platforms. We present our experience with (1) curating those technologies, (2) integrating them to provide users with new capabilities, (3) developing a continuous integration platform to test the SDK on DOE HPC platforms, (4) designing a dashboard to publish the results of those tests, and (5) devising an innovative documentation platform to help users to use those technologies. Our experience details the requirements and the best practices needed to curate workflow technologies, and it also serves as a blueprint for the capabilities and services that DOE will have to offer to support a variety of scientific heterogeneous workflows on the newly available exascale HPC platforms.
- Abstract(参考訳): 科学的発見はますます、ハイパフォーマンスコンピューティング(HPC)プラットフォーム上で異種科学ワークフローを実行する必要がある。
不均一ワークフローには、さまざまなコンピュータ上でマッピング、スケジュール、起動を必要とするさまざまなタイプのタスク(シミュレーション、分析、学習など)が含まれている。
ユーザは自分のワークフローをコーディングし、リソース管理とワークフローの実行を自動化するソフトウェアスタックが必要だ。
現在、さまざまなレベルの堅牢性と能力を持つワークフロー技術が数多く存在しており、特に最新のエクサスケールプラットフォームを考えると、HPCマシンでのユースケースを効果的に効率的にサポートできるソフトウェアの難しい選択に直面しています。
私たちはExaWorks Software Development Kit(SDK)の開発でこの問題に対処することに貢献しました。
SDKは、現在のベストプラクティスに従って開発されたワークフロー技術のキュレートされたコレクションであり、特にHPCプラットフォームで動作するように設計されている。
我々は,(1)これらの技術のキュレーション,(2)新たな機能の提供のための統合,(3) DOE HPCプラットフォーム上でSDKをテストする継続的インテグレーションプラットフォームの開発,(4) テスト結果を公開するためのダッシュボードの設計,(5) ユーザがこれらの技術を使用するための革新的なドキュメンテーションプラットフォームの開発について紹介する。
私たちの経験では、ワークフロー技術をキュレートするために必要な要件とベストプラクティスを詳述しています。また、新たに利用可能な大規模HPCプラットフォーム上で、さまざまな科学的異種ワークフローをサポートするために、DOEが提供しなければならない機能とサービスの青写真としても機能します。
関連論文リスト
- Exascale Workflow Applications and Middleware: An ExaWorks Retrospective [3.4423220997316593]
多様な大規模プラットフォーム上で異種ソフトウェアコンポーネントをコーディネートし、デプロイするという課題に対処するExaWorksプロジェクトを紹介します。
我々はジョブ管理抽象化APIであるSoftware Development Toolkit(SDK)と、ジョブの提出と監視のための最小限のインターフェースであるPSI/Jを開発した。
当社のプロジェクトでは,ワークフローコミュニティや大規模コンピューティング施設,HPCプラットフォームベンダと連携して,エクサスケールでの要件を持続的に解決する方法について論じる。
論文 参考訳(メタデータ) (2024-11-16T00:10:53Z) - Final Report for CHESS: Cloud, High-Performance Computing, and Edge for Science and Security [5.781151161558928]
継続プラットフォームの構築、ワークフロータスクのオーケストレーション、データセットのキュレーションといった方法は、パフォーマンス、エネルギ、セキュリティ、信頼性に関する科学的要件を達成できない。
報告では、オープンサイエンスの観点から、CHESSの結果と成功について述べる。
論文 参考訳(メタデータ) (2024-10-21T15:16:00Z) - GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI [64.57616646552869]
本稿では、モデル、データソース、パイプラインを統合し、複雑で多様なタスクを解決するためにパフォーマンスを向上させるために使用される協調AIシステムについて検討する。
我々は、LLMベースのフレームワークであるGenAgentを紹介した。
その結果、GenAgentは実行レベルおよびタスクレベルの評価においてベースラインアプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - Hydra: Brokering Cloud and HPC Resources to Support the Execution of Heterogeneous Workloads at Scale [1.474723404975345]
Hydraは、商用プライベートクラウドとHPCプラットフォームからリソースを同時に取得できる、クラウド内のHPCブローカシステムである。
商用プライベートクラウドとHPCプラットフォームからリソースを同時取得可能な,クラウド内HPCブローカシステムであるHydraを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:46Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Reusability Challenges of Scientific Workflows: A Case Study for Galaxy [56.78572674167333]
本研究では,既存の再使用可能性について検討し,いくつかの課題を明らかにした。
再利用性防止の課題には、ツールのアップグレード、ツールのサポート、設計上の欠陥、不完全性、ワークフローのロードの失敗などが含まれる。
論文 参考訳(メタデータ) (2023-09-13T20:17:43Z) - The GitHub Development Workflow Automation Ecosystems [47.818229204130596]
大規模なソフトウェア開発は、非常に協力的な取り組みになっています。
この章では、開発ボットとGitHub Actionsのエコシステムについて解説する。
この領域における最先端技術に関する広範な調査を提供する。
論文 参考訳(メタデータ) (2023-05-08T15:24:23Z) - YMIR: A Rapid Data-centric Development Platform for Vision Applications [82.67319997259622]
本稿では,コンピュータビジョンアプリケーションの開発を迅速化するオープンソースプラットフォームについて紹介する。
このプラットフォームは、効率的なデータ開発を機械学習開発プロセスの中心に置く。
論文 参考訳(メタデータ) (2021-11-19T05:02:55Z) - hls4ml: An Open-Source Codesign Workflow to Empower Scientific Low-Power
Machine Learning Devices [0.6353764569103648]
科学的領域では、リアルタイム近接センサー処理は実験設計を劇的に改善し、科学的発見を加速することができる。
我々は,機械学習アルゴリズムの解釈と翻訳を行う,オープンソースのソフトウェアハードウェアコード署名ワークフローであるhls4mlを開発した。
我々は、能力と技術を低消費電力実装に拡張することで、以前のhls4ml作業を拡大する。
論文 参考訳(メタデータ) (2021-03-09T17:34:44Z) - Technology Readiness Levels for Machine Learning Systems [107.56979560568232]
機械学習システムの開発とデプロイは、現代のツールで簡単に実行できますが、プロセスは一般的に急ぎ、エンドツーエンドです。
私たちは、機械学習の開発と展開のための実証済みのシステムエンジニアリングアプローチを開発しました。
当社の「機械学習技術準備レベル」フレームワークは、堅牢で信頼性が高く、責任あるシステムを確保するための原則的なプロセスを定義します。
論文 参考訳(メタデータ) (2021-01-11T15:54:48Z) - Collective Knowledge: organizing research projects as a database of
reusable components and portable workflows with common APIs [0.2538209532048866]
この記事では、集合的知識フレームワーク(CKまたはcKnowledge)のモチベーションと概要について述べる。
CKの概念は、研究プロジェクトを研究成果物をカプセル化した再利用可能なコンポーネントに分解することである。
長期的な目標は、研究者と実践者を結びつけて、すべての知識を共有し再利用することで、イノベーションを加速させることである。
論文 参考訳(メタデータ) (2020-11-02T17:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。