論文の概要: Characterizing and Modeling Distributed Training with Transient Cloud
GPU Servers
- arxiv url: http://arxiv.org/abs/2004.03072v1
- Date: Tue, 7 Apr 2020 01:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 01:00:13.683527
- Title: Characterizing and Modeling Distributed Training with Transient Cloud
GPU Servers
- Title(参考訳): 過渡的クラウドgpuサーバによる分散トレーニングのキャラクタリゼーションとモデリング
- Authors: Shijian Li and Robert J. Walls and Tian Guo
- Abstract要約: CM-DAREを用いて,多様なクラスタ構成下での分散トレーニング性能を解析する。
私たちの経験的データセットには、3つのGPUタイプ、6つの地理的領域、20の畳み込みニューラルネットワーク、数千のGoogle Cloudサーバからの計測が含まれています。
また、回帰モデルを用いてトレーニング速度とオーバーヘッドを予測することが可能であることを示す。
- 参考スコア(独自算出の注目度): 6.56704851092678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cloud GPU servers have become the de facto way for deep learning
practitioners to train complex models on large-scale datasets. However, it is
challenging to determine the appropriate cluster configuration---e.g., server
type and number---for different training workloads while balancing the
trade-offs in training time, cost, and model accuracy. Adding to the complexity
is the potential to reduce the monetary cost by using cheaper, but revocable,
transient GPU servers.
In this work, we analyze distributed training performance under diverse
cluster configurations using CM-DARE, a cloud-based measurement and training
framework. Our empirical datasets include measurements from three GPU types,
six geographic regions, twenty convolutional neural networks, and thousands of
Google Cloud servers. We also demonstrate the feasibility of predicting
training speed and overhead using regression-based models. Finally, we discuss
potential use cases of our performance modeling such as detecting and
mitigating performance bottlenecks.
- Abstract(参考訳): クラウドGPUサーバは、ディープラーニング実践者が大規模データセット上で複雑なモデルをトレーニングする事実上の方法になっている。
しかし、異なるトレーニングワークロードに対して、トレーニング時間、コスト、モデルの精度のトレードオフをバランスしながら、適切なクラスタ構成、すなわち、サーバタイプと番号を決定することは困難である。
複雑さの追加は、安価だが取り消し可能なトランジェントGPUサーバを使用することで、金銭的コストを削減する可能性がある。
本研究では,クラウドベースの計測・トレーニングフレームワークcm-dareを用いて,クラスタ構成の多様な分散トレーニング性能を分析する。
私たちの経験的データセットには、3つのGPUタイプ、6つの地理的領域、20の畳み込みニューラルネットワーク、数千のGoogle Cloudサーバからの計測が含まれています。
また,回帰モデルを用いた学習速度とオーバヘッドの予測の可能性を示す。
最後に,性能ボトルネックの検出や緩和といったパフォーマンスモデリングの潜在的なユースケースについて論じる。
関連論文リスト
- TensorSocket: Shared Data Loading for Deep Learning Training [0.0]
ディープラーニングトレーニングは反復的かつリソース集約的なプロセスである。
socketは、同じデータローダを共有する同時トレーニングプロセスを可能にする。
評価の結果,データ共有なしでは実現不可能なシナリオが実現でき,トレーニングのスループットを最大で100%向上できることがわかった。
論文 参考訳(メタデータ) (2024-09-27T13:39:47Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - How Can We Train Deep Learning Models Across Clouds and Continents? An Experimental Study [57.97785297481162]
代表的なCV, NLP, ASRモデルに対して, 異なるゾーン, 大陸, 雲におけるトレーニングの費用とスループットについて検討した。
スポット価格を活用することで、複数の安価なインスタンスでモデルをトレーニングし、より集中的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を台無しにする、新たなコスト効率の方法が実現されることを示す。
論文 参考訳(メタデータ) (2023-06-05T18:17:37Z) - Scavenger: A Cloud Service for Optimizing Cost and Performance of ML
Training [1.047192732651018]
我々は,クラウド上での分散MLモデルトレーニングのトレーニング時間とコストを最適化するための,原則的かつ実用的な手法を開発した。
従来の並列スケーリングの概念とSGDノイズに対する新たな洞察を組み合わせることで,クラスタ構成の異なる時間とコストを5%の誤差で正確に推定する。
論文 参考訳(メタデータ) (2023-03-12T13:42:39Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Sampling Training Data for Continual Learning Between Robots and the
Cloud [26.116999231118793]
ロボットに搭載され、システムのボトルネックを低減するインテリジェントなサンプリングアルゴリズムであるHarvestNetを紹介します。
これは、道路建設現場の新しいデータセット、自動運転車のフィールドテスト、およびストリーミング顔認識上の機械学習モデルの精度を大幅に改善します。
ベースラインアルゴリズムよりも1.05-2.58倍正確であり、sscalablyは組み込みディープラーニングハードウェア上で動作する。
論文 参考訳(メタデータ) (2020-12-12T05:52:33Z) - Towards Scalable Distributed Training of Deep Learning on Public Cloud
Clusters [30.4449309904155]
分散トレーニングのための新しいトップkスパシフィケーション通信ライブラリを提案する。
CNNやTransformerの既存の最先端システムよりも25%~40%高速であることを示す。
論文 参考訳(メタデータ) (2020-10-20T17:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。