論文の概要: Scalable Runtime Architecture for Data-driven, Hybrid HPC and ML Workflow Applications
- arxiv url: http://arxiv.org/abs/2503.13343v1
- Date: Mon, 17 Mar 2025 16:21:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:59:00.027639
- Title: Scalable Runtime Architecture for Data-driven, Hybrid HPC and ML Workflow Applications
- Title(参考訳): データ駆動型ハイブリッドHPCおよびMLワークフローアプリケーションのためのスケーラブルランタイムアーキテクチャ
- Authors: Andre Merzky, Mikhail Titov, Matteo Turilli, Ozgur Kilic, Tianle Wang, Shantenu Jha,
- Abstract要約: 従来のHPCと新しいML方法論を組み合わせたハイブリッドは、科学計算を変革している。
本稿では、RADICAL-Pilotを拡張し、サービスベースの実行によりAI-out-HPCをサポートするスケーラブルランタイムシステムのアーキテクチャと実装について述べる。
予備実験の結果,本手法はアーキテクチャ上のオーバーヘッドを最小限に抑えながら,ローカルおよびリモートHPC/クラウドリソース間でMLモデルの同時実行を管理することを示す。
- 参考スコア(独自算出の注目度): 2.0999841017238063
- License:
- Abstract: Hybrid workflows combining traditional HPC and novel ML methodologies are transforming scientific computing. This paper presents the architecture and implementation of a scalable runtime system that extends RADICAL-Pilot with service-based execution to support AI-out-HPC workflows. Our runtime system enables distributed ML capabilities, efficient resource management, and seamless HPC/ML coupling across local and remote platforms. Preliminary experimental results show that our approach manages concurrent execution of ML models across local and remote HPC/cloud resources with minimal architectural overheads. This lays the foundation for prototyping three representative data-driven workflow applications and executing them at scale on leadership-class HPC platforms.
- Abstract(参考訳): 従来のHPCと新しいML方法論を組み合わせたハイブリッドワークフローは、科学計算を変革している。
本稿では、RADICAL-Pilotを拡張し、サービスベースの実行によりAI-out-HPCワークフローをサポートするスケーラブルランタイムシステムのアーキテクチャと実装について述べる。
我々のランタイムシステムは、ローカルプラットフォームとリモートプラットフォーム間の分散ML機能、効率的なリソース管理、シームレスなHPC/ML結合を可能にします。
予備実験の結果,本手法はアーキテクチャ上のオーバーヘッドを最小限に抑えながら,ローカルおよびリモートHPC/クラウドリソース間でMLモデルの同時実行を管理することを示す。
これは、代表的な3つのデータ駆動ワークフローアプリケーションをプロトタイピングし、リーダーシップクラスのHPCプラットフォームでそれらを大規模に実行する基盤となる。
関連論文リスト
- PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。
認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。
意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-20T05:41:55Z) - Exascale Workflow Applications and Middleware: An ExaWorks Retrospective [3.4423220997316593]
多様な大規模プラットフォーム上で異種ソフトウェアコンポーネントをコーディネートし、デプロイするという課題に対処するExaWorksプロジェクトを紹介します。
我々はジョブ管理抽象化APIであるSoftware Development Toolkit(SDK)と、ジョブの提出と監視のための最小限のインターフェースであるPSI/Jを開発した。
当社のプロジェクトでは,ワークフローコミュニティや大規模コンピューティング施設,HPCプラットフォームベンダと連携して,エクサスケールでの要件を持続的に解決する方法について論じる。
論文 参考訳(メタデータ) (2024-11-16T00:10:53Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Hydra: Brokering Cloud and HPC Resources to Support the Execution of Heterogeneous Workloads at Scale [1.474723404975345]
Hydraは、商用プライベートクラウドとHPCプラットフォームからリソースを同時に取得できる、クラウド内のHPCブローカシステムである。
商用プライベートクラウドとHPCプラットフォームからリソースを同時取得可能な,クラウド内HPCブローカシステムであるHydraを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:46Z) - HPC-GPT: Integrating Large Language Model for High-Performance Computing [3.8078849170829407]
HPCドメインに対して生成されたQA(Question-Answer)インスタンスを用いて微調整を行う新しいLLaMAモデルであるHPC-GPTを提案する。
その有効性を評価するために、AIモデルとHPC用データセットの管理とデータ競合検出という2つのHPCタスクに集中する。
LLMとHPC固有のタスク間の性能ギャップを埋めるHPC-GPTの可能性について検討した。
論文 参考訳(メタデータ) (2023-10-03T01:34:55Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - AI-coupled HPC Workflows [1.5469452301122175]
従来のHPCにAI/MLモデルを導入することは、非常に正確なモデリングを可能にしてきた。
AI/MLモデルをHPC計算に統合するさまざまなモードにより、さまざまなタイプのAI結合型HPCが生成される。
論文 参考訳(メタデータ) (2022-08-24T19:16:43Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - Integrating Deep Learning in Domain Sciences at Exascale [2.241545093375334]
我々は,大規模HPCシステム上でディープラーニングモデルとアプリケーションを効率的に動作させるための既存パッケージの評価を行った。
本稿では,現在の大規模異種システムに対する新しい非同期並列化と最適化手法を提案する。
従来の計算集約型アプリケーションとデータ集約型アプリケーションをAIで拡張するための図表と潜在的なソリューションを提案する。
論文 参考訳(メタデータ) (2020-11-23T03:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。