論文の概要: A Survey on Machine Learning for Geo-Distributed Cloud Data Center
Management
- arxiv url: http://arxiv.org/abs/2205.08072v1
- Date: Tue, 17 May 2022 03:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 14:16:29.573945
- Title: A Survey on Machine Learning for Geo-Distributed Cloud Data Center
Management
- Title(参考訳): 地理分散型データセンター管理のための機械学習に関する調査
- Authors: Ninad Hogade, Sudeep Pasricha
- Abstract要約: クラウドサービスプロバイダは、運用コストを削減し、サービス品質を向上させるために、データセンタを世界中に配布しています。
このような大規模かつ複雑なソフトウェアワークロードとハードウェアリソースのオーケストレーションは、効率的な解決が難しい問題です。
本稿では,クラウドデータセンタ管理問題に対する最先端の機械学習技術について概説する。
- 参考スコア(独自算出の注目度): 4.226118870861363
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cloud workloads today are typically managed in a distributed environment and
processed across geographically distributed data centers. Cloud service
providers have been distributing data centers globally to reduce operating
costs while also improving quality of service by using intelligent workload and
resource management strategies. Such large scale and complex orchestration of
software workload and hardware resources remains a difficult problem to solve
efficiently. Researchers and practitioners have been trying to address this
problem by proposing a variety of cloud management techniques. Mathematical
optimization techniques have historically been used to address cloud management
issues. But these techniques are difficult to scale to geo-distributed problem
sizes and have limited applicability in dynamic heterogeneous system
environments, forcing cloud service providers to explore intelligent
data-driven and Machine Learning (ML) based alternatives. The characterization,
prediction, control, and optimization of complex, heterogeneous, and
ever-changing distributed cloud resources and workloads employing ML
methodologies have received much attention in recent years. In this article, we
review the state-of-the-art ML techniques for the cloud data center management
problem. We examine the challenges and the issues in current research focused
on ML for cloud management and explore strategies for addressing these issues.
We also discuss advantages and disadvantages of ML techniques presented in the
recent literature and make recommendations for future research directions.
- Abstract(参考訳): 今日のクラウドワークロードは通常、分散環境で管理され、地理的に分散したデータセンターで処理される。
クラウドサービスプロバイダは、運用コストを削減し、インテリジェントなワークロードとリソース管理戦略を使用することで、サービス品質を改善しながら、データセンタをグローバルに分散してきました。
このような大規模かつ複雑なソフトウェアワークロードとハードウェアリソースのオーケストレーションは、効率的な解決が難しい問題です。
研究者や実践者は、さまざまなクラウド管理テクニックを提案して、この問題に対処しようとしています。
数学的最適化技術は、クラウド管理の問題に対処するために歴史的に使われてきた。
しかし、これらのテクニックは地理的に分散した問題サイズにスケールすることは難しく、動的に異種システム環境での適用性は限られており、クラウドサービスプロバイダはインテリジェントなデータ駆動および機械学習(ml)ベースの代替案を探求せざるを得ない。
近年,ML手法を用いた分散クラウドリソースとワークロードの特性,予測,制御,最適化が注目されている。
本稿では,クラウドデータセンタ管理問題に対する最先端のML技術について概説する。
クラウド管理のためのMLに焦点を当てた現在の研究の課題と課題について検討し、これらの課題に対処するための戦略を探る。
また,近年の文献に紹介されているML技術の長所と短所についても論じ,今後の研究方向性を推奨する。
関連論文リスト
- Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。
本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文 参考訳(メタデータ) (2023-12-01T16:00:25Z) - Scalable, Distributed AI Frameworks: Leveraging Cloud Computing for
Enhanced Deep Learning Performance and Efficiency [0.0]
近年、人工知能(AI)とクラウドコンピューティングの統合は、AIアプリケーションの計算要求の増加に対処するための有望な道として現れている。
本稿では,クラウドコンピューティングを活用したスケーラブルな分散AIフレームワークの総合的研究を行い,ディープラーニングの性能向上と効率化について述べる。
論文 参考訳(メタデータ) (2023-04-26T15:38:00Z) - Sustainable AIGC Workload Scheduling of Geo-Distributed Data Centers: A
Multi-Agent Reinforcement Learning Approach [48.18355658448509]
生成的人工知能の最近の進歩は、機械学習トレーニングの需要が急増し、エネルギー消費の大幅な増加によるコスト負担と環境問題を引き起こしている。
地理的に分散したクラウドデータセンタ間でのトレーニングジョブのスケジューリングは、安価で低炭素エネルギーのコンピューティング能力の使用を最適化する機会を浮き彫りにする。
本研究では,実生活におけるワークロードパターン,エネルギー価格,炭素強度を組み込んだクラウドシステムと対話することで,マルチエージェント強化学習とアクタクリティカルな手法に基づく最適協調スケジューリング戦略の学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-17T02:12:30Z) - Outsourcing Training without Uploading Data via Efficient Collaborative
Open-Source Sampling [49.87637449243698]
従来のアウトソーシングでは、デバイスデータをクラウドサーバにアップロードする必要がある。
我々は、公開および異種ソースから収集された膨大なデータセットである、広く利用可能なオープンソースデータを活用することを提案する。
我々は,オープンソースデータからクラウドトレーニングのためのプロキシデータセットを構築するための,ECOS(Efficient Collaborative Open-source Sampling)と呼ばれる新しい戦略を開発した。
論文 参考訳(メタデータ) (2022-10-23T00:12:18Z) - Measuring the Carbon Intensity of AI in Cloud Instances [91.28501520271972]
我々は,ソフトウェアの炭素強度を測定するための枠組みを提供し,運転中の炭素排出量を測定することを提案する。
私たちは、Microsoft Azureクラウドコンピューティングプラットフォームにおける排出削減のための一連のアプローチを評価します。
論文 参考訳(メタデータ) (2022-06-10T17:04:04Z) - The MIT Supercloud Dataset [3.375826083518709]
我々は、大規模なHPCとデータセンター/クラウドオペレーションの分析において、革新的なAI/MLアプローチを促進することを目的とした、MIT Supercloudデータセットを紹介します。
我々は、ジョブ毎のCPUおよびGPU使用率、メモリ使用率、ファイルシステムログ、物理モニタリングデータを含む、MIT Supercloudシステムから詳細な監視ログを提供する。
本稿では,データセットの詳細,収集手法,データ可用性について論じ,このデータを用いて開発されている潜在的な課題について論じる。
論文 参考訳(メタデータ) (2021-08-04T13:06:17Z) - Machine Learning (ML)-Centric Resource Management in Cloud Computing: A
Review and Future Directions [22.779373079539713]
インフラストラクチャ・アズ・ア・サービス(I)は、最も重要かつ急速に成長する分野の1つです。
私のクラウドコンピューティングの最も重要な側面の1つは、リソース管理です。
機械学習は、さまざまなリソース管理タスクを処理するために使用されます。
論文 参考訳(メタデータ) (2021-05-09T08:03:58Z) - Machine learning for cloud resources management -- An overview [0.0]
本研究では,機械学習と組み合わされたクラウドリソース管理の最も重要な課題について考察する。
さまざまな種類のクラウドリソース管理分野で使用されるML技術と,その比較を合理的に行うために,大規模な研究コレクションが使用されている。
本稿では,各分野に最適なMLモデルを提案する。
論文 参考訳(メタデータ) (2021-01-28T13:23:00Z) - Artificial Intelligence (AI)-Centric Management of Resources in Modern
Distributed Computing Systems [22.550075095184514]
Cloud Data Centres (DCS) は大規模で複雑で異種であり、複数のネットワークと地理的境界に分散している。
IoT(Internet of Things)駆動のアプリケーションは、リアルタイム処理と迅速な応答を必要とする膨大なデータを生成しています。
既存のリソース管理システム(RMS)は、そのような複合システムや動的システムには静的またはソリューションが不十分である。
論文 参考訳(メタデータ) (2020-06-09T06:54:07Z) - Offline Reinforcement Learning: Tutorial, Review, and Perspectives on
Open Problems [108.81683598693539]
オフラインの強化学習アルゴリズムは、巨大なデータセットを強力な意思決定エンジンにできるという、大きな約束を持っています。
我々は,これらの課題,特に近代的な深層強化学習手法の文脈において,読者にこれらの課題を理解することを目的としている。
論文 参考訳(メタデータ) (2020-05-04T17:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。