論文の概要: Reproducible and Portable Big Data Analytics in the Cloud
- arxiv url: http://arxiv.org/abs/2112.09762v1
- Date: Fri, 17 Dec 2021 20:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-09 17:11:54.052289
- Title: Reproducible and Portable Big Data Analytics in the Cloud
- Title(参考訳): クラウド上の再現可能でポータブルなビッグデータ分析
- Authors: Xin Wang, Pei Guo, Xingyan Li, Jianwu Wang, Aryya Gangopadhyay, Carl
E. Busart, Jade Freeman
- Abstract要約: クラウドでビッグデータアプリケーションを再現する上で,大きな課題は2つあります。
ひとつは、クラウドにおけるビッグデータ分析のエンドツーエンド実行を自動化する方法だ。
2つ目は、AWSやAzureなど、ひとつのクラウド用に開発されたアプリケーションで、別のクラウドで再現することは困難である。
- 参考スコア(独自算出の注目度): 4.948702463455218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cloud computing has become a major approach to enable reproducible
computational experiments because of its support of on-demand hardware and
software resource provisioning. Yet there are still two main difficulties in
reproducing big data applications in the cloud. The first is how to automate
end-to-end execution of big data analytics in the cloud including virtual
distributed environment provisioning, network and security group setup, and big
data analytics pipeline description and execution. The second is an application
developed for one cloud, such as AWS or Azure, is difficult to reproduce in
another cloud, a.k.a. vendor lock-in problem. To tackle these problems, we
leverage serverless computing and containerization techniques for automatic
scalable big data application execution and reproducibility, and utilize the
adapter design pattern to enable application portability and reproducibility
across different clouds. Based on the approach, we propose and develop an
open-source toolkit that supports 1) on-demand distributed hardware and
software environment provisioning, 2) automatic data and configuration storage
for each execution, 3) flexible client modes based on user preferences, 4)
execution history query, and 5) simple reproducibility of existing executions
in the same environment or a different environment. We did extensive
experiments on both AWS and Azure using three big data analytics applications
that run on a virtual CPU/GPU cluster. Three main behaviors of our toolkit were
benchmarked: i) execution overhead ratio for reproducibility support, ii)
differences of reproducing the same application on AWS and Azure in terms of
execution time, budgetary cost and cost-performance ratio, iii) differences
between scale-out and scale-up approach for the same application on AWS and
Azure.
- Abstract(参考訳): クラウドコンピューティングは、オンデマンドハードウェアとソフトウェアリソースのプロビジョニングをサポートするため、再現可能な計算実験を可能にする主要なアプローチとなっている。
しかし、クラウドでビッグデータアプリケーションを再現する上で、大きな困難は2つあります。
ひとつは、仮想分散環境プロビジョニング、ネットワークとセキュリティグループのセットアップ、ビッグデータ分析パイプラインの記述と実行を含む、クラウドにおけるビッグデータ分析のエンドツーエンド実行を自動化する方法だ。
2つ目は、AWSやAzureなど、あるクラウド向けに開発されたアプリケーションで、別のクラウドで再現することは困難である。
これらの問題に対処するために,私たちは,スケーラブルなビッグデータアプリケーションの自動実行と再現性のために,サーバレスコンピューティングとコンテナ化技術を活用するとともに,アダプタ設計パターンを活用して,さまざまなクラウド間でのアプリケーションのポータビリティと再現性を実現する。
このアプローチに基づいて,オープンソースツールキットの提案と開発を行う。
1)オンデマンド分散ハードウェアとソフトウェア環境のプロビジョニング
2) 各実行毎に自動データと設定記憶装置。
3) ユーザの好みに基づいたフレキシブルクライアントモード。
4)実行履歴クエリ、および
5)同一環境や異なる環境における既存実行の簡単な再現性。
仮想cpu/gpuクラスタ上で動作する3つのビッグデータ分析アプリケーションを使用して、awsとazureの両方で広範な実験を行いました。
ツールキットの主な動作は以下の3つだ。
一 再現性支援のための実行オーバーヘッド率
二 実行時間、予算費及び費用対効果比率の点で、aws及びazure上で同一のアプリケーションを再生することの相違
iii) AWSとAzure上の同じアプリケーションに対するスケールアウトとスケールアップのアプローチの違い。
関連論文リスト
- SeBS-Flow: Benchmarking Serverless Cloud Function Workflows [51.4200085836966]
本稿では、最初のサーバーレスワークフローベンチマークスイートSeBS-Flowを提案する。
SeBS-Flowには6つの実世界のアプリケーションベンチマークと、異なる計算パターンを表す4つのマイクロベンチマークが含まれている。
当社では,パフォーマンス,コスト,スケーラビリティ,ランタイムの偏差など,3つの主要なクラウドプラットフォームに関する包括的な評価を実施しています。
論文 参考訳(メタデータ) (2024-10-04T14:52:18Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。
これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文 参考訳(メタデータ) (2024-02-21T09:18:44Z) - Prism: Revealing Hidden Functional Clusters from Massive Instances in
Cloud Systems [32.18320298895805]
我々は,類似の機能を持つインスタンス群という,インスタンスの機能的クラスタを推論することを提案する。
我々はまず、大規模なクラウドシステムであるHuawei Cloudのパイロット研究を行い、同様の機能を持つインスタンスが、同様のコミュニケーションとリソース使用パターンを共有していることを実証した。
これらの結果から,クラスタリング問題としての関数クラスタの同定を定式化し,Prismと呼ばれる非侵入的解を提案する。
論文 参考訳(メタデータ) (2023-08-15T08:34:54Z) - A Unified Cloud-Enabled Discrete Event Parallel and Distributed
Simulation Architecture [0.7949705607963994]
クラウドにシミュレーションをデプロイするのに十分な柔軟性を備えた並列分散M&Sアーキテクチャを提案する。
我々のフレームワークは、離散イベントシステム仕様(DEVS)の形式に基づいている。
並列および分散フレームワークのパフォーマンスは、xDEVS M&Sツールと最大8つの計算ノードを持つDEVStoneベンチマークを用いてテストされる。
論文 参考訳(メタデータ) (2023-02-22T09:47:09Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。
最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。
提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文 参考訳(メタデータ) (2021-11-26T18:44:59Z) - Reproducible Performance Optimization of Complex Applications on the
Edge-to-Cloud Continuum [55.6313942302582]
エッジ・ツー・クラウド・コンティニュム上でのリアルタイムアプリケーションの最適化を支援する手法を提案する。
提案手法は, 制御されたテストベッド環境において, その動作を理解するための厳密な構成解析に頼っている。
当社の方法論はEdge-to-Cloud Continuumの他のアプリケーションに一般化することができる。
論文 参考訳(メタデータ) (2021-08-04T07:35:14Z) - Dynamic Scheduling for Stochastic Edge-Cloud Computing Environments
using A3C learning and Residual Recurrent Neural Networks [30.61220416710614]
A-Advantage-Actor-Critic(A3C)学習は、データが少ない動的なシナリオに迅速に適応することが知られ、Residual Recurrent Neural Network(R2N2)はモデルパラメータを迅速に更新する。
我々はR2N2アーキテクチャを用いて、多数のホストパラメータとタスクパラメータを時間パターンとともにキャプチャし、効率的なスケジューリング決定を提供する。
実世界のデータセットで実施された実験では、エネルギー消費、応答時間、ServiceLevelAgreementおよびランニングコストがそれぞれ14.4%、7.74%、31.9%、および4.64%で大幅に改善された。
論文 参考訳(メタデータ) (2020-09-01T13:36:34Z) - AI-based Resource Allocation: Reinforcement Learning for Adaptive
Auto-scaling in Serverless Environments [0.0]
近年、サーバーレスコンピューティングはクラウドコンピューティングモデルの魅力的な新しいパラダイムとして現れています。
商用およびオープンソースのサーバレスコンピューティングプラットフォームに共通するアプローチは、ワークロードベースの自動スケーリングである。
本稿では、サーバーレスフレームワークにおける要求ベース自動スケーリングに対する強化学習アプローチの適用性について検討する。
論文 参考訳(メタデータ) (2020-05-29T06:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。