論文の概要: The MIT Supercloud Workload Classification Challenge
- arxiv url: http://arxiv.org/abs/2204.05839v2
- Date: Wed, 13 Apr 2022 18:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 12:29:41.612007
- Title: The MIT Supercloud Workload Classification Challenge
- Title(参考訳): MITのスーパークラウドワークロード分類チャレンジ
- Authors: Benny J. Tang, Qiqi Chen, Matthew L. Weiss, Nathan Frey, Joseph
McDonald, David Bestor, Charles Yee, William Arcand, Chansup Byun, Daniel
Edelman, Matthew Hubbell, Michael Jones, Jeremy Kepner, Anna Klein, Adam
Michaleas, Peter Michaleas, Lauren Milechin, Julia Mullen, Andrew Prout,
Albert Reuther, Antonio Rosa, Andrew Bowne, Lindsey McEvoy, Baolin Li, Devesh
Tiwari, Vijay Gadepally, Siddharth Samsi
- Abstract要約: 本稿では,MIT Supercloudデータセットに基づくワークロード分類の課題について述べる。
この課題の目標は、計算ワークロードの分析におけるアルゴリズムのイノベーションを促進することである。
- 参考スコア(独自算出の注目度): 10.458111248130944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-Performance Computing (HPC) centers and cloud providers support an
increasingly diverse set of applications on heterogenous hardware. As
Artificial Intelligence (AI) and Machine Learning (ML) workloads have become an
increasingly larger share of the compute workloads, new approaches to optimized
resource usage, allocation, and deployment of new AI frameworks are needed. By
identifying compute workloads and their utilization characteristics, HPC
systems may be able to better match available resources with the application
demand. By leveraging datacenter instrumentation, it may be possible to develop
AI-based approaches that can identify workloads and provide feedback to
researchers and datacenter operators for improving operational efficiency. To
enable this research, we released the MIT Supercloud Dataset, which provides
detailed monitoring logs from the MIT Supercloud cluster. This dataset includes
CPU and GPU usage by jobs, memory usage, and file system logs. In this paper,
we present a workload classification challenge based on this dataset. We
introduce a labelled dataset that can be used to develop new approaches to
workload classification and present initial results based on existing
approaches. The goal of this challenge is to foster algorithmic innovations in
the analysis of compute workloads that can achieve higher accuracy than
existing methods. Data and code will be made publicly available via the
Datacenter Challenge website : https://dcc.mit.edu.
- Abstract(参考訳): ハイパフォーマンスコンピューティング(HPC)センターとクラウドプロバイダは、異種ハードウェア上でますます多様なアプリケーションの集合をサポートする。
人工知能(AI)と機械学習(ML)のワークロードが計算ワークロードのシェアを拡大するにつれ、リソースの最適化、アロケーション、新しいAIフレームワークのデプロイに対する新たなアプローチが求められている。
計算ワークロードとその利用特性を識別することで、hpcシステムは利用可能なリソースとアプリケーション要求をよりよく一致させることができる。
データセンタインスツルメンテーションを活用することで、ワークロードを特定し、運用効率を改善するために研究者やデータセンタオペレータにフィードバックを提供するaiベースのアプローチを開発することが可能になる。
この研究を可能にするために、我々はmit supercloudクラスタからの詳細な監視ログを提供するmit supercloudデータセットをリリースした。
このデータセットには、ジョブ、メモリ使用量、ファイルシステムログによるcpuとgpuの利用が含まれている。
本稿では,このデータセットに基づくワークロード分類の課題について述べる。
ワークロード分類の新しいアプローチの開発や,既存のアプローチに基づいた初期結果の提示に使用可能なラベル付きデータセットを導入する。
この課題の目標は、既存の方法よりも高い精度を達成できる計算ワークロードの分析において、アルゴリズムによるイノベーションを促進することである。
データとコードは、Datacenter ChallengeのWebサイト(https://dcc.mit.edu.com)から公開される。
関連論文リスト
- Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Privacy-Preserving Serverless Edge Learning with Decentralized Small
Data [13.254530176359182]
最近、分散トレーニング戦略は、ディープモデルをトレーニングする際のデータプライバシを保証するための有望なアプローチになっている。
本稿では、従来のサーバレスプラットフォームをサーバレスエッジ学習アーキテクチャで拡張し、ネットワークの観点から効率的な分散トレーニングフレームワークを提供する。
論文 参考訳(メタデータ) (2021-11-29T21:04:49Z) - The MIT Supercloud Dataset [3.375826083518709]
我々は、大規模なHPCとデータセンター/クラウドオペレーションの分析において、革新的なAI/MLアプローチを促進することを目的とした、MIT Supercloudデータセットを紹介します。
我々は、ジョブ毎のCPUおよびGPU使用率、メモリ使用率、ファイルシステムログ、物理モニタリングデータを含む、MIT Supercloudシステムから詳細な監視ログを提供する。
本稿では,データセットの詳細,収集手法,データ可用性について論じ,このデータを用いて開発されている潜在的な課題について論じる。
論文 参考訳(メタデータ) (2021-08-04T13:06:17Z) - Confluence of Artificial Intelligence and High Performance Computing for
Accelerated, Scalable and Reproducible Gravitational Wave Detection [4.081122815035999]
DOEとNSFが支援するサイバーインフラストラクチャーの接続によって、機械学習モデルをパブリッシュする方法を実証する。
次に、このワークフローを用いて、オープンソースの先進LIGOデータにおいて、二元ブラックホール重力波信号を探索する。
このワークフローを使うことで、オープンソースで利用可能な4つのディープラーニングモデルのアンサンブルがHAL上で実行でき、2017年8月のLIGOデータの高度な処理をわずか7分で行うことができる。
論文 参考訳(メタデータ) (2020-12-15T19:00:29Z) - Cost-effective Machine Learning Inference Offload for Edge Computing [0.3149883354098941]
本稿では,インストール・ベース・オンプレミス(edge)計算資源を活用した新しいオフロード機構を提案する。
提案するメカニズムにより、エッジデバイスは、リモートクラウドを使用する代わりに、重い計算集約的なワークロードをエッジノードにオフロードすることができる。
論文 参考訳(メタデータ) (2020-12-07T21:11:02Z) - Faster Secure Data Mining via Distributed Homomorphic Encryption [108.77460689459247]
ホモモルフィック暗号化(HE)は、最近、暗号化されたフィールド上で計算を行う能力により、ますます注目を集めている。
本稿では,スケーリング問題の解決に向けて,新しい分散HEベースのデータマイニングフレームワークを提案する。
各種データマイニングアルゴリズムとベンチマークデータセットを用いて,新しいフレームワークの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2020-06-17T18:14:30Z) - Artificial Intelligence (AI)-Centric Management of Resources in Modern
Distributed Computing Systems [22.550075095184514]
Cloud Data Centres (DCS) は大規模で複雑で異種であり、複数のネットワークと地理的境界に分散している。
IoT(Internet of Things)駆動のアプリケーションは、リアルタイム処理と迅速な応答を必要とする膨大なデータを生成しています。
既存のリソース管理システム(RMS)は、そのような複合システムや動的システムには静的またはソリューションが不十分である。
論文 参考訳(メタデータ) (2020-06-09T06:54:07Z) - A Privacy-Preserving Distributed Architecture for
Deep-Learning-as-a-Service [68.84245063902908]
本稿では,ディープラーニング・アズ・ア・サービスのための分散アーキテクチャを提案する。
クラウドベースのマシンとディープラーニングサービスを提供しながら、ユーザの機密データを保存できる。
論文 参考訳(メタデータ) (2020-03-30T15:12:03Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。