論文の概要: The MIT Supercloud Dataset
- arxiv url: http://arxiv.org/abs/2108.02037v1
- Date: Wed, 4 Aug 2021 13:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 13:23:43.659387
- Title: The MIT Supercloud Dataset
- Title(参考訳): MIT Supercloud Dataset
- Authors: Siddharth Samsi, Matthew L Weiss, David Bestor, Baolin Li, Michael
Jones, Albert Reuther, Daniel Edelman, William Arcand, Chansup Byun, John
Holodnack, Matthew Hubbell, Jeremy Kepner, Anna Klein, Joseph McDonald, Adam
Michaleas, Peter Michaleas, Lauren Milechin, Julia Mullen, Charles Yee,
Benjamin Price, Andrew Prout, Antonio Rosa, Allan Vanterpool, Lindsey McEvoy,
Anson Cheng, Devesh Tiwari, Vijay Gadepally
- Abstract要約: 我々は、大規模なHPCとデータセンター/クラウドオペレーションの分析において、革新的なAI/MLアプローチを促進することを目的とした、MIT Supercloudデータセットを紹介します。
我々は、ジョブ毎のCPUおよびGPU使用率、メモリ使用率、ファイルシステムログ、物理モニタリングデータを含む、MIT Supercloudシステムから詳細な監視ログを提供する。
本稿では,データセットの詳細,収集手法,データ可用性について論じ,このデータを用いて開発されている潜在的な課題について論じる。
- 参考スコア(独自算出の注目度): 3.375826083518709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial intelligence (AI) and Machine learning (ML) workloads are an
increasingly larger share of the compute workloads in traditional
High-Performance Computing (HPC) centers and commercial cloud systems. This has
led to changes in deployment approaches of HPC clusters and the commercial
cloud, as well as a new focus on approaches to optimized resource usage,
allocations and deployment of new AI frame- works, and capabilities such as
Jupyter notebooks to enable rapid prototyping and deployment. With these
changes, there is a need to better understand cluster/datacenter operations
with the goal of developing improved scheduling policies, identifying
inefficiencies in resource utilization, energy/power consumption, failure
prediction, and identifying policy violations. In this paper we introduce the
MIT Supercloud Dataset which aims to foster innovative AI/ML approaches to the
analysis of large scale HPC and datacenter/cloud operations. We provide
detailed monitoring logs from the MIT Supercloud system, which include CPU and
GPU usage by jobs, memory usage, file system logs, and physical monitoring
data. This paper discusses the details of the dataset, collection methodology,
data availability, and discusses potential challenge problems being developed
using this data. Datasets and future challenge announcements will be available
via https://dcc.mit.edu.
- Abstract(参考訳): 人工知能(AI)と機械学習(ML)ワークロードは、従来のハイパフォーマンスコンピューティング(HPC)センターと商用クラウドシステムにおいて、計算ワークロードのますます大きなシェアを占めている。
これにより、HPCクラスタと商用クラウドのデプロイメントアプローチが変更され、リソース使用の最適化、新しいAIフレームワークのアロケーションとデプロイへのアプローチ、迅速なプロトタイピングとデプロイメントを可能にするJupyterノートブックなどの機能に新たな焦点が当てられた。
これらの変更により、改善されたスケジューリングポリシーの開発、リソース利用の非効率性、エネルギー/電力消費、障害予測、ポリシー違反の特定を目標として、クラスタ/データセンタの運用をよりよく理解する必要がある。
本稿では,大規模なHPCとデータセンタ/クラウド操作の分析において,革新的なAI/MLアプローチの育成を目的とした,MIT Supercloud Datasetを紹介する。
我々は、ジョブ毎のCPUおよびGPU使用率、メモリ使用率、ファイルシステムログ、物理モニタリングデータを含む、MIT Supercloudシステムから詳細な監視ログを提供する。
本稿では,データセットの詳細,収集手法,データ可用性について論じ,このデータを用いて開発されている潜在的な課題について論じる。
datasets and future challenge announcementsはhttps://dcc.mit.edu.com/で入手できる。
関連論文リスト
- Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - Scalable, Distributed AI Frameworks: Leveraging Cloud Computing for
Enhanced Deep Learning Performance and Efficiency [0.0]
近年、人工知能(AI)とクラウドコンピューティングの統合は、AIアプリケーションの計算要求の増加に対処するための有望な道として現れている。
本稿では,クラウドコンピューティングを活用したスケーラブルな分散AIフレームワークの総合的研究を行い,ディープラーニングの性能向上と効率化について述べる。
論文 参考訳(メタデータ) (2023-04-26T15:38:00Z) - Outsourcing Training without Uploading Data via Efficient Collaborative
Open-Source Sampling [49.87637449243698]
従来のアウトソーシングでは、デバイスデータをクラウドサーバにアップロードする必要がある。
我々は、公開および異種ソースから収集された膨大なデータセットである、広く利用可能なオープンソースデータを活用することを提案する。
我々は,オープンソースデータからクラウドトレーニングのためのプロキシデータセットを構築するための,ECOS(Efficient Collaborative Open-source Sampling)と呼ばれる新しい戦略を開発した。
論文 参考訳(メタデータ) (2022-10-23T00:12:18Z) - The MIT Supercloud Workload Classification Challenge [10.458111248130944]
本稿では,MIT Supercloudデータセットに基づくワークロード分類の課題について述べる。
この課題の目標は、計算ワークロードの分析におけるアルゴリズムのイノベーションを促進することである。
論文 参考訳(メタデータ) (2022-04-12T14:28:04Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Machine Learning (ML)-Centric Resource Management in Cloud Computing: A
Review and Future Directions [22.779373079539713]
インフラストラクチャ・アズ・ア・サービス(I)は、最も重要かつ急速に成長する分野の1つです。
私のクラウドコンピューティングの最も重要な側面の1つは、リソース管理です。
機械学習は、さまざまなリソース管理タスクを処理するために使用されます。
論文 参考訳(メタデータ) (2021-05-09T08:03:58Z) - Cost-effective Machine Learning Inference Offload for Edge Computing [0.3149883354098941]
本稿では,インストール・ベース・オンプレミス(edge)計算資源を活用した新しいオフロード機構を提案する。
提案するメカニズムにより、エッジデバイスは、リモートクラウドを使用する代わりに、重い計算集約的なワークロードをエッジノードにオフロードすることができる。
論文 参考訳(メタデータ) (2020-12-07T21:11:02Z) - Artificial Intelligence (AI)-Centric Management of Resources in Modern
Distributed Computing Systems [22.550075095184514]
Cloud Data Centres (DCS) は大規模で複雑で異種であり、複数のネットワークと地理的境界に分散している。
IoT(Internet of Things)駆動のアプリケーションは、リアルタイム処理と迅速な応答を必要とする膨大なデータを生成しています。
既存のリソース管理システム(RMS)は、そのような複合システムや動的システムには静的またはソリューションが不十分である。
論文 参考訳(メタデータ) (2020-06-09T06:54:07Z) - A Privacy-Preserving Distributed Architecture for
Deep-Learning-as-a-Service [68.84245063902908]
本稿では,ディープラーニング・アズ・ア・サービスのための分散アーキテクチャを提案する。
クラウドベースのマシンとディープラーニングサービスを提供しながら、ユーザの機密データを保存できる。
論文 参考訳(メタデータ) (2020-03-30T15:12:03Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。