Fugu-MT 論文翻訳(概要): HeterPS: Distributed Deep Learning With Reinforcement Learning Based Scheduling in Heterogeneous Environments

論文の概要: HeterPS: Distributed Deep Learning With Reinforcement Learning Based Scheduling in Heterogeneous Environments

arxiv url: http://arxiv.org/abs/2111.10635v4
Date: Wed, 7 Jun 2023 13:33:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-08 20:42:38.663553
Title: HeterPS: Distributed Deep Learning With Reinforcement Learning Based Scheduling in Heterogeneous Environments
Title（参考訳）: HeterPS:異種環境における強化学習に基づくスケジューリングによる分散ディープラーニング
Authors: Ji Liu, Zhihua Wu, Dianhai Yu, Yanjun Ma, Danlei Feng, Minxu Zhang, Xinxuan Wu, Xuefeng Yao, Dejing Dou
Abstract要約: ニューラルネットワーク(DNN)のトレーニングプロセスは、多くのスパースな特徴を持つ大規模な入力データを扱うのが一般的である。 Paddle-HeterPSは分散アーキテクチャとReinforcement Reinforcement (RL)ベースのスケジューリング手法で構成されている。パドル・ヘターPSはスループット(14.5倍高い)と金銭的コスト(312.3%小さい)で最先端のアプローチを著しく上回っている。
参考スコア（独自算出の注目度）: 37.55572042288321
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep neural networks (DNNs) exploit many layers and a large number of parameters to achieve excellent performance. The training process of DNN models generally handles large-scale input data with many sparse features, which incurs high Input/Output (IO) cost, while some layers are compute-intensive. The training process generally exploits distributed computing resources to reduce training time. In addition, heterogeneous computing resources, e.g., CPUs, GPUs of multiple types, are available for the distributed training process. Thus, the scheduling of multiple layers to diverse computing resources is critical for the training process. To efficiently train a DNN model using the heterogeneous computing resources, we propose a distributed framework, i.e., Paddle-Heterogeneous Parameter Server (Paddle-HeterPS), composed of a distributed architecture and a Reinforcement Learning (RL)-based scheduling method. The advantages of Paddle-HeterPS are three-fold compared with existing frameworks. First, Paddle-HeterPS enables efficient training process of diverse workloads with heterogeneous computing resources. Second, Paddle-HeterPS exploits an RL-based method to efficiently schedule the workload of each layer to appropriate computing resources to minimize the cost while satisfying throughput constraints. Third, Paddle-HeterPS manages data storage and data communication among distributed computing resources. We carry out extensive experiments to show that Paddle-HeterPS significantly outperforms state-of-the-art approaches in terms of throughput (14.5 times higher) and monetary cost (312.3% smaller). The codes of the framework are publicly available at: https://github.com/PaddlePaddle/Paddle.
Abstract（参考訳）: ディープニューラルネットワーク(DNN)は多くのレイヤと多数のパラメータを利用して優れたパフォーマンスを実現する。 dnnモデルのトレーニングプロセスは一般的に、多くのスパースな機能を持つ大規模な入力データを処理し、高い入出力(io)コストを発生させるが、いくつかの層は計算集約的である。トレーニングプロセスは一般的に分散コンピューティングリソースを利用してトレーニング時間を短縮する。さらに、分散トレーニングプロセスには、CPU、複数のタイプのGPUなどの異種コンピューティングリソースが利用できる。したがって、トレーニングプロセスにおいて、多様なコンピューティングリソースに対する複数のレイヤのスケジューリングが重要となる。異種計算資源を用いてDNNモデルを効率的に訓練するために,分散アーキテクチャと強化学習(RL)に基づくスケジューリング手法からなる分散フレームワークであるPaddle-Heterogeneous Parameter Server(Paddle-HeterPS)を提案する。 Paddle-HeterPSの利点は、既存のフレームワークと比べて3倍である。まず、Paddle-HeterPSは異種コンピューティングリソースを用いた多様なワークロードの効率的なトレーニングプロセスを実現する。第二に、Paddle-HeterPS は RL ベースの手法を利用して、スループットの制約を満たしながらコストを最小限に抑えるため、各レイヤのワークロードを適切な計算リソースに効率的にスケジュールする。第3に、Paddle-HeterPSは分散コンピューティングリソース間のデータストレージとデータ通信を管理する。我々は、パドル・ヘターPSがスループット(14.5倍)と金銭的コスト(312.3%以下)で最先端のアプローチを著しく上回ることを示す広範な実験を行った。フレームワークのコードは、https://github.com/PaddlePaddle/Paddle.comで公開されている。

関連論文リスト

OmniLearn: A Framework for Distributed Deep Learning over Heterogeneous Clusters [1.4131700241686853]
異種資源の影響を軽減するため,OmniLearnという適応型バッチスケーリングフレームワークを開発した。当社のアプローチは、異種サーバ間のバランスをとるための比例的なコントローラにインスパイアされ、さまざまなリソースの可用性の下で動作します。
論文参考訳（メタデータ） (2025-03-21T18:26:24Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
TensorSocket: Shared Data Loading for Deep Learning Training [0.0]
ディープラーニングトレーニングは反復的かつリソース集約的なプロセスである。本稿では,同時学習プロセスで同じデータローダを共有できるようにすることにより,トレーニングの計算的ニーズを低減するためにSocketを提案する。評価の結果,データ共有なしでは実現不可能なシナリオを実現し,トレーニングスループットを最大100%向上し,クラウドインスタンスを利用する場合,コストを50%削減できることがわかった。
論文参考訳（メタデータ） (2024-09-27T13:39:47Z)
Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文参考訳（メタデータ） (2024-03-17T13:06:29Z)
Exploring the Impact of Serverless Computing on Peer To Peer Training Machine Learning [0.3441021278275805]
分散トレーニングのためのサーバーレスコンピューティングとP2Pネットワークを組み合わせた新しいアーキテクチャを導入する。その結果,従来のP2P分散学習法と比較して97.34%の改善がみられた。コストタイムのトレードオフにもかかわらず、サーバーレスのアプローチは依然として有望である。
論文参考訳（メタデータ） (2023-09-25T13:51:07Z)
Taming Resource Heterogeneity In Distributed ML Training With Dynamic Batching [1.047192732651018]
分散モデルトレーニングの現在の技術は、クラスタが一定のリソース可用性を持つサーバで構成されていることを主に前提としている。本研究では、分散データ並列学習のための動的手法を開発し、各作業者のミニバッチサイズを可用性とスループットに基づいて調整する。
論文参考訳（メタデータ） (2023-05-20T15:33:06Z)
Partitioning Distributed Compute Jobs with Reinforcement Learning and Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文参考訳（メタデータ） (2023-01-31T17:41:07Z)
PiPar: Pipeline Parallelism for Collaborative Machine Learning [16.131285496487678]
協調機械学習(CML)技術は、複数のモバイルデバイスとサーバにまたがるディープラーニングモデルをトレーニングするために提案されている。 CML技術は、デバイスからの生データをサーバと共有するのではなく、各デバイスでトレーニングされたローカルモデルとしてプライバシ保存される。低資源利用の主要因として,シーケンシャルな計算と通信により,サーバやデバイス上でのアイドリングリソースを同定する。
論文参考訳（メタデータ） (2022-12-01T20:51:47Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Doing More by Doing Less: How Structured Partial Backpropagation Improves Deep Learning Clusters [9.17259958324486]
ディープラーニングモデルのトレーニングは、リソース集約的で、重要な計算、メモリ、ネットワークリソースを消費する。本研究では,分散トレーニングにおける個々の作業者のバックプロパゲーション量を制御する手法である構造化部分バックプロパゲーション(SPB)を提案する。 JigSawは,大規模クラスタの効率を最大28%向上できることがわかった。
論文参考訳（メタデータ） (2021-11-20T20:34:26Z)
Pollux: Co-adaptive Cluster Scheduling for Goodput-Optimized Deep Learning [61.29990368322931]
Polluxは、相互依存要因を適応的に最適化することで、ディープラーニング(DL)クラスタのスケジューリング性能を改善する。 Polluxは、最先端のDLスケジューラと比較して、平均的なジョブ完了時間を37-50%削減する。
論文参考訳（メタデータ） (2020-08-27T16:56:48Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)
Large-Scale Gradient-Free Deep Learning with Recursive Local Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文参考訳（メタデータ） (2020-02-10T16:20:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。