論文の概要: Cloud Services Enable Efficient AI-Guided Simulation Workflows across
Heterogeneous Resources
- arxiv url: http://arxiv.org/abs/2303.08803v1
- Date: Wed, 15 Mar 2023 17:54:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 12:44:20.474086
- Title: Cloud Services Enable Efficient AI-Guided Simulation Workflows across
Heterogeneous Resources
- Title(参考訳): 異種リソース間の効率的なai誘導シミュレーションワークフローを実現するクラウドサービス
- Authors: Logan Ward, J. Gregory Pauloski, Valerie Hayot-Sasson, Ryan Chard,
Yadu Babuji, Ganesh Sivaraman, Sutanay Choudhury, Kyle Chard, Rajeev Thakur,
Ian Foster
- Abstract要約: このような異種システムに2つのAI誘導シミュレーションをデプロイした経験を紹介する。
このアプローチのユニークな側面は、クラウドでホストされた管理サービスを使用することです。
これらの手法は,資源間の直接接続に依存するシステムと性能的に同等であることを示す。
- 参考スコア(独自算出の注目度): 3.0448404204967003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applications that fuse machine learning and simulation can benefit from the
use of multiple computing resources, with, for example, simulation codes
running on highly parallel supercomputers and AI training and inference tasks
on specialized accelerators. Here, we present our experiences deploying two
AI-guided simulation workflows across such heterogeneous systems. A unique
aspect of our approach is our use of cloud-hosted management services to manage
challenging aspects of cross-resource authentication and authorization,
function-as-a-service (FaaS) function invocation, and data transfer.
We show that these methods can achieve performance parity with systems that
rely on direct connection between resources. We achieve parity by integrating
the FaaS system and data transfer capabilities with a system that passes data
by reference among managers and workers, and a user-configurable steering
algorithm to hide data transfer latencies. We anticipate that this ease of use
can enable routine use of heterogeneous resources in computational science.
- Abstract(参考訳): 機械学習とシミュレーションを融合するアプリケーションは、例えば、高並列スーパーコンピュータで動作するシミュレーションコードや、特別なアクセラレータ上でAIトレーニングと推論タスクなど、複数のコンピューティングリソースの使用の恩恵を受けることができる。
本稿では、このような異種システムに2つのAI誘導シミュレーションワークフローをデプロイした経験を紹介する。
当社のアプローチのユニークな側面は、クラウドホスト型管理サービスを使用して、クロスリソース認証と認証、FaaS(Function-as-a-service)関数呼び出し、データ転送の困難な側面を管理することです。
これらの手法は,資源間の直接接続に依存するシステムと性能的に同等であることを示す。
我々は、FaaSシステムとデータ転送機能と、マネージャやワーカー間の参照データによるデータ転送システムと、データ転送レイテンシを隠蔽するユーザ設定可能なステアリングアルゴリズムを統合することで、同等性を実現する。
この使いやすさにより、計算科学における異種資源の日常的な活用が期待できる。
関連論文リスト
- GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI [64.57616646552869]
本稿では、モデル、データソース、パイプラインを統合し、複雑で多様なタスクを解決するためにパフォーマンスを向上させるために使用される協調AIシステムについて検討する。
我々は、LLMベースのフレームワークであるGenAgentを紹介した。
その結果、GenAgentは実行レベルおよびタスクレベルの評価においてベースラインアプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - Robot Fleet Learning via Policy Merging [58.5086287737653]
我々はFLEET-MERGEを提案し、艦隊設定における政策を効率的にマージする。
本稿では,FLEET-MERGEがメタワールド環境における50のタスクで訓練されたポリシーの行動を統合することを示す。
合成・接触に富んだロボット操作タスクにおけるフリートポリシー学習のための新しいロボットツール用ベンチマークであるFLEET-TOOLSを導入する。
論文 参考訳(メタデータ) (2023-10-02T17:23:51Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Bringing AI to the edge: A formal M&S specification to deploy effective
IoT architectures [0.0]
モノのインターネットは私たちの社会を変え、生活の質と資源管理を改善する新しいサービスを提供しています。
これらのアプリケーションは、限られたコンピューティングリソースとパワーを持つ、複数の分散デバイスのユビキタスネットワークに基づいている。
フォグコンピューティングのような新しいアーキテクチャが登場し、コンピューティング基盤をデータソースに近づけている。
論文 参考訳(メタデータ) (2023-05-11T21:29:58Z) - The MIT Supercloud Workload Classification Challenge [10.458111248130944]
本稿では,MIT Supercloudデータセットに基づくワークロード分類の課題について述べる。
この課題の目標は、計算ワークロードの分析におけるアルゴリズムのイノベーションを促進することである。
論文 参考訳(メタデータ) (2022-04-12T14:28:04Z) - Federated Stochastic Gradient Descent Begets Self-Induced Momentum [151.4322255230084]
Federated Learning(FL)は、モバイルエッジシステムに適用可能な、新興の機械学習手法である。
このような条件下での勾配降下(SGD)への走行は,大域的な集約プロセスに運動量的な項を加えるとみなすことができる。
論文 参考訳(メタデータ) (2022-02-17T02:01:37Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Adaptive Scheduling for Machine Learning Tasks over Networks [1.4271989597349055]
本論文では, 線形回帰タスクに資源を効率的に割り当てるアルゴリズムを, データのインフォマティビティ性を利用して検討する。
アルゴリズムは、信頼性の高い性能保証による学習タスクの適応スケジューリングを可能にする。
論文 参考訳(メタデータ) (2021-01-25T10:59:00Z) - Reinforcement Learning on Computational Resource Allocation of
Cloud-based Wireless Networks [22.06811314358283]
IoT(Internet of Things)に使用される無線ネットワークには、主にクラウドベースのコンピューティングと処理が関与することが期待されている。
クラウド環境では、プロセスのパフォーマンスを維持しながらエネルギーを節約するために、動的計算資源割り当てが不可欠である。
本稿では、この動的計算資源割当問題をマルコフ決定プロセス(MDP)にモデル化し、CPU使用量の動的リソース割当を最適化するためのモデルベース強化学習エージェントを設計する。
その結果, エージェントは最適方針に迅速に収束し, 異なる設定で安定して動作し, 性能が良く, あるいは少なくとも等しく動作し, 異なるシナリオでの省エネにおけるベースラインアルゴリズムと比較した。
論文 参考訳(メタデータ) (2020-10-10T15:16:26Z) - A Machine Learning Approach for Task and Resource Allocation in Mobile
Edge Computing Based Networks [108.57859531628264]
無線ネットワークにおいて,共同作業,スペクトル,送信電力配分問題について検討する。
提案アルゴリズムは、標準Q-ラーニングアルゴリズムと比較して、収束に必要なイテレーション数と全ユーザの最大遅延を最大18%、11.1%削減することができる。
論文 参考訳(メタデータ) (2020-07-20T13:46:42Z) - Artificial Intelligence (AI)-Centric Management of Resources in Modern
Distributed Computing Systems [22.550075095184514]
Cloud Data Centres (DCS) は大規模で複雑で異種であり、複数のネットワークと地理的境界に分散している。
IoT(Internet of Things)駆動のアプリケーションは、リアルタイム処理と迅速な応答を必要とする膨大なデータを生成しています。
既存のリソース管理システム(RMS)は、そのような複合システムや動的システムには静的またはソリューションが不十分である。
論文 参考訳(メタデータ) (2020-06-09T06:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。