Fugu-MT 論文翻訳(概要): Taming Resource Heterogeneity In Distributed ML Training With Dynamic Batching

論文の概要: Taming Resource Heterogeneity In Distributed ML Training With Dynamic Batching

arxiv url: http://arxiv.org/abs/2305.12213v1
Date: Sat, 20 May 2023 15:33:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 00:01:10.770503
Title: Taming Resource Heterogeneity In Distributed ML Training With Dynamic Batching
Title（参考訳）: 動的バッチによる分散MLトレーニングにおけるリソースの不均一性の回避
Authors: Sahil Tyagi and Prateek Sharma
Abstract要約: 分散モデルトレーニングの現在の技術は、クラスタが一定のリソース可用性を持つサーバで構成されていることを主に前提としている。本研究では、分散データ並列学習のための動的手法を開発し、各作業者のミニバッチサイズを可用性とスループットに基づいて調整する。
参考スコア（独自算出の注目度）: 1.047192732651018
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current techniques and systems for distributed model training mostly assume that clusters are comprised of homogeneous servers with a constant resource availability. However, cluster heterogeneity is pervasive in computing infrastructure, and is a fundamental characteristic of low-cost transient resources (such as EC2 spot instances). In this paper, we develop a dynamic batching technique for distributed data-parallel training that adjusts the mini-batch sizes on each worker based on its resource availability and throughput. Our mini-batch controller seeks to equalize iteration times on all workers, and facilitates training on clusters comprised of servers with different amounts of CPU and GPU resources. This variable mini-batch technique uses proportional control and ideas from PID controllers to find stable mini-batch sizes. Our empirical evaluation shows that dynamic batching can reduce model training times by more than 4x on heterogeneous clusters.
Abstract（参考訳）: 分散モデルトレーニングの現在の技術とシステムは、クラスタが定常的なリソース可用性を持つ均質なサーバで構成されていると仮定している。しかしながら、クラスタの不均質性はコンピューティングインフラストラクチャに浸透しており、低コストの過渡的リソース(ec2スポットインスタンスなど)の基本的な特徴である。本稿では,各作業者のミニバッチサイズをリソースの可用性とスループットに基づいて調整する分散データ並列トレーニングのための動的バッチ手法を提案する。我々のミニバッチコントローラは、すべてのワーカーのイテレーションタイムを等しくし、CPUとGPUリソースの異なるサーバからなるクラスタでのトレーニングを容易にする。この可変ミニバッチ技術は、PIDコントローラの比例制御とアイデアを使って安定したミニバッチサイズを求める。実験結果から,動的バッチ処理により,異種クラスタ上でのモデルのトレーニング時間を4倍以上削減できることがわかった。

関連論文リスト

StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
OmniLearn: A Framework for Distributed Deep Learning over Heterogeneous Clusters [1.4131700241686853]
異種資源の影響を軽減するため,OmniLearnという適応型バッチスケーリングフレームワークを開発した。当社のアプローチは、異種サーバ間のバランスをとるための比例的なコントローラにインスパイアされ、さまざまなリソースの可用性の下で動作します。
論文参考訳（メタデータ） (2025-03-21T18:26:24Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
The Streaming Batch Model for Efficient and Fault-Tolerant Heterogeneous Execution [20.926218346718482]
本稿では, 効率的かつフォールトトレラントなヘテロジニアス実行を可能にする2つのモデルのハイブリッドであるストリーミングバッチモデルを紹介する。我々は、従来のバッチ処理やストリーム処理システムと比較して、異種バッチ推論パイプラインのスループットを3～8$timesで改善するストリーミングバッチモデルの実装であるRay Dataを紹介する。
論文参考訳（メタデータ） (2025-01-16T19:54:01Z)
Equitable-FL: Federated Learning with Sparsity for Resource-Constrained Environment [10.980548731600116]
本稿では,資源制約環境下でうまく機能する疎結合型学習法を提案する。私たちの目標は、ノードの空間、コンピューティング、帯域幅の不足に関わらず、学習を可能にすることです。畳み込みニューラルネットワークのトレーニング実験の結果, 等価FLの有効性が検証された。
論文参考訳（メタデータ） (2023-09-02T08:40:17Z)
Partitioning Distributed Compute Jobs with Reinforcement Learning and Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文参考訳（メタデータ） (2023-01-31T17:41:07Z)
PiPar: Pipeline Parallelism for Collaborative Machine Learning [16.131285496487678]
協調機械学習(CML)技術は、複数のモバイルデバイスとサーバにまたがるディープラーニングモデルをトレーニングするために提案されている。 CML技術は、デバイスからの生データをサーバと共有するのではなく、各デバイスでトレーニングされたローカルモデルとしてプライバシ保存される。低資源利用の主要因として,シーケンシャルな計算と通信により,サーバやデバイス上でのアイドリングリソースを同定する。
論文参考訳（メタデータ） (2022-12-01T20:51:47Z)
Decentralized Training of Foundation Models in Heterogeneous Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文参考訳（メタデータ） (2022-06-02T20:19:51Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)
Asynchronous Parallel Incremental Block-Coordinate Descent for Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文参考訳（メタデータ） (2022-02-07T15:04:15Z)
Parallel Successive Learning for Dynamic Distributed Model Training over Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文参考訳（メタデータ） (2022-02-07T05:11:01Z)
Efficient Device Scheduling with Multi-Job Federated Learning [64.21733164243781]
本稿では,複数のジョブの並列学習プロセスを実現するための,新しいマルチジョブフェデレーション学習フレームワークを提案する。コストを最小化しつつ、複数のジョブに対してデバイスをスケジュールする強化学習法とベイズ最適化法を提案する。提案手法は,トレーニング時間(最大8.67倍高速)と精度(最大44.6%高)において,ベースラインアプローチよりも有意に優れていた。
論文参考訳（メタデータ） (2021-12-11T08:05:11Z)
Doing More by Doing Less: How Structured Partial Backpropagation Improves Deep Learning Clusters [9.17259958324486]
ディープラーニングモデルのトレーニングは、リソース集約的で、重要な計算、メモリ、ネットワークリソースを消費する。本研究では,分散トレーニングにおける個々の作業者のバックプロパゲーション量を制御する手法である構造化部分バックプロパゲーション(SPB)を提案する。 JigSawは,大規模クラスタの効率を最大28%向上できることがわかった。
論文参考訳（メタデータ） (2021-11-20T20:34:26Z)
HeterPS: Distributed Deep Learning With Reinforcement Learning Based Scheduling in Heterogeneous Environments [37.55572042288321]
ニューラルネットワーク(DNN)のトレーニングプロセスは、多くのスパースな特徴を持つ大規模な入力データを扱うのが一般的である。 Paddle-HeterPSは分散アーキテクチャとReinforcement Reinforcement (RL)ベースのスケジューリング手法で構成されている。パドル・ヘターPSはスループット(14.5倍高い)と金銭的コスト(312.3%小さい)で最先端のアプローチを著しく上回っている。
論文参考訳（メタデータ） (2021-11-20T17:09:15Z)
Clairvoyant Prefetching for Distributed Machine Learning I/O [9.490118207943192]
I/Oは、特にクラウドやスーパーコンピュータのような分散環境において、機械学習トレーニングの大きなボトルネックとして現れています。我々は、新しい機械学習I/O、HDMLPを作成し、I/Oボトルネックに取り組む。 HDMLPは、最先端のアプローチよりも優れたパフォーマンスを提供する、使いやすい、柔軟でスケーラブルなソリューションを提供します。
論文参考訳（メタデータ） (2021-01-21T17:21:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。