論文の概要: Resource Allocation and Workload Scheduling for Large-Scale Distributed Deep Learning: A Survey
- arxiv url: http://arxiv.org/abs/2406.08115v1
- Date: Wed, 12 Jun 2024 11:51:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 17:05:29.560182
- Title: Resource Allocation and Workload Scheduling for Large-Scale Distributed Deep Learning: A Survey
- Title(参考訳): 大規模分散ディープラーニングのためのリソース割り当てとワークロードスケジューリング
- Authors: Feng Liang, Zhen Zhang, Haifeng Lu, Chengming Li, Victor C. M. Leung, Yanyi Guo, Xiping Hu,
- Abstract要約: 本調査は,大規模分散DLの効率的な資源配分とワークロードスケジューリング戦略について,主に2019年から2024年までの文献を概説する。
トピックごとに重要な課題を強調し、既存の技術に関する重要な洞察について議論する。
この調査は、コンピュータ科学、人工知能、通信研究者が最近の進歩を理解することを奨励することを目的としている。
- 参考スコア(独自算出の注目度): 48.06362354403557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With rapidly increasing distributed deep learning workloads in large-scale data centers, efficient distributed deep learning framework strategies for resource allocation and workload scheduling have become the key to high-performance deep learning. The large-scale environment with large volumes of datasets, models, and computational and communication resources raises various unique challenges for resource allocation and workload scheduling in distributed deep learning, such as scheduling complexity, resource and workload heterogeneity, and fault tolerance. To uncover these challenges and corresponding solutions, this survey reviews the literature, mainly from 2019 to 2024, on efficient resource allocation and workload scheduling strategies for large-scale distributed DL. We explore these strategies by focusing on various resource types, scheduling granularity levels, and performance goals during distributed training and inference processes. We highlight critical challenges for each topic and discuss key insights of existing technologies. To illustrate practical large-scale resource allocation and workload scheduling in real distributed deep learning scenarios, we use a case study of training large language models. This survey aims to encourage computer science, artificial intelligence, and communications researchers to understand recent advances and explore future research directions for efficient framework strategies for large-scale distributed deep learning.
- Abstract(参考訳): 大規模データセンターにおける分散ディープラーニングワークロードの急速な増加に伴い、リソース割り当てとワークロードスケジューリングのための効率的な分散ディープラーニングフレームワーク戦略が、高性能なディープラーニングの鍵となっている。
大量のデータセット、モデル、計算および通信リソースを備えた大規模環境は、スケジューリング複雑性、リソースとワークロードの不均一性、フォールトトレランスなど、分散ディープラーニングにおけるリソース割り当てとワークロードスケジューリングに関するさまざまなユニークな課題を提起する。
これらの課題と対応ソリューションを明らかにするため、この調査では、2019年から2024年にかけて主に、大規模分散DLの効率的なリソース割り当てとワークロードスケジューリング戦略に関する文献をレビューした。
分散トレーニングや推論プロセスにおいて、さまざまなリソースタイプ、粒度レベルのスケジューリング、パフォーマンス目標に焦点をあてることで、これらの戦略を探求する。
トピックごとに重要な課題を強調し、既存の技術に関する重要な洞察について議論する。
実際の分散ディープラーニングシナリオにおける大規模リソース割り当てとワークロードスケジューリングの実践例を示すために,大規模言語モデルの学習事例を用いた。
本調査の目的は,コンピュータ科学,人工知能,コミュニケーション研究者が最近の進歩を理解し,大規模分散ディープラーニングのための効率的なフレームワーク戦略のための今後の研究方向を探ることである。
関連論文リスト
- A Comprehensive Survey on Joint Resource Allocation Strategies in Federated Edge Learning [9.806901443019008]
Federated Edge Learning (FEL)は、分散環境でのモデルトレーニングを可能にすると同時に、ユーザデータの物理的分離を利用することで、ユーザのプライバシを確保する。
IoT(Internet of Things)やSmart Earthといった複雑なアプリケーションシナリオの開発により、従来のリソース割り当てスキームは、これらの増大する計算および通信要求を効果的にサポートすることができなくなった。
本稿では,複数の資源需要が増大する中で,計算と通信の多面的課題を体系的に解決する。
論文 参考訳(メタデータ) (2024-10-10T13:02:00Z) - Communication-Efficient Large-Scale Distributed Deep Learning: A Comprehensive Survey [43.57122822150023]
本稿では,大規模分散ディープラーニングにおける効率的なコミュニケーションの実現を目的とした,アルゴリズムと技術に関する文献調査を行う。
まず,大規模分散学習の文脈において,モデル同期と通信データ圧縮のための効率的なアルゴリズムを導入する。
次に、分散トレーニングおよび推論におけるリソース割り当てとタスクスケジューリングに関する効率的な戦略を導入する。
論文 参考訳(メタデータ) (2024-04-09T08:35:04Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - A Survey on Applications of Reinforcement Learning in Spatial Resource
Allocation [5.821318691099762]
空間資源配分の課題は、交通、産業、日常生活など様々な領域に広がっている。
従来のアルゴリズムは、最適な効率とリアルタイムの能力を達成するのに苦戦している。
近年,空間資源配分問題に対処する強化学習を用いた新しい手法が急増している。
論文 参考訳(メタデータ) (2024-03-06T12:05:56Z) - Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models [33.50873478562128]
LLM(Large Language Models)は、計算、メモリ、エネルギー、金融資源の高消費に課題をもたらす。
本調査は, LLMの資源効率向上を目的とした多種多様な手法を概観することにより, これらの課題を体系的に解決することを目的としている。
論文 参考訳(メタデータ) (2024-01-01T01:12:42Z) - The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。
本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文 参考訳(メタデータ) (2023-12-01T16:00:25Z) - A Review of Deep Reinforcement Learning in Serverless Computing:
Function Scheduling and Resource Auto-Scaling [2.0722667822370386]
本稿では、サーバーレスコンピューティングにおけるDeep Reinforcement Learning(DRL)技術の適用について、包括的なレビューを行う。
DRLをサーバレスコンピューティングに適用する最近の研究の体系的なレビューが、さまざまなアルゴリズム、モデル、パフォーマンスについて紹介されている。
分析の結果,DRLは環境から学習・適応する能力を有しており,機能スケジューリングと資源スケーリングの効率化に期待できる結果が得られた。
論文 参考訳(メタデータ) (2023-10-05T09:26:04Z) - On Efficient Training of Large-Scale Deep Learning Models: A Literature
Review [90.87691246153612]
ディープラーニングの分野は特にコンピュータビジョン(CV)、自然言語処理(NLP)、音声などにおいて大きな進歩を遂げている。
大量のデータに基づいてトレーニングされた大規模なモデルを使用することは、実用的なアプリケーションにとって大きな可能性を秘めている。
計算能力の需要が増大する中で、ディープラーニングモデルの訓練の加速技術に関する包括的な要約が期待されている。
論文 参考訳(メタデータ) (2023-04-07T11:13:23Z) - Active Multi-Task Representation Learning [50.13453053304159]
本研究は,アクティブラーニングの手法を活用することで,資源タスクのサンプリングに関する最初の公式な研究を行う。
提案手法は, 対象タスクに対する各ソースタスクの関連性を反復的に推定し, その関連性に基づいて各ソースタスクからサンプルを抽出するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-02T08:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。