論文の概要: How Can We Train Deep Learning Models Across Clouds and Continents? An
Experimental Study
- arxiv url: http://arxiv.org/abs/2306.03163v1
- Date: Mon, 5 Jun 2023 18:17:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 19:01:16.840501
- Title: How Can We Train Deep Learning Models Across Clouds and Continents? An
Experimental Study
- Title(参考訳): クラウドと大陸をまたいだディープラーニングモデルをどうやってトレーニングできるのか?
実験的検討
- Authors: Alexander Isenko, Ruben Mayer, Hans-Arno Jacobsen
- Abstract要約: クラウドや専用ハードウェア上でのディープラーニングモデルのトレーニングは費用がかかる。
よりコスト効率のよい選択肢は、オンデマンドリソースに代わる安価だが短命なスポットインスタンスを提供するハイパースケールクラウドである。
それでも、地理的に分散したデータ並列スポットディープラーニングトレーニングが、集中型トレーニングよりもコスト効率の高い代替手段になるかどうかは、調査されていない。
- 参考スコア(独自算出の注目度): 84.61088987582619
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Training deep learning models in the cloud or on dedicated hardware is
expensive. A more cost-efficient option are hyperscale clouds offering spot
instances, a cheap but ephemeral alternative to on-demand resources. As spot
instance availability can change depending on the time of day, continent, and
cloud provider, it could be more cost-efficient to distribute resources over
the world. Still, it has not been investigated whether geo-distributed,
data-parallel spot deep learning training could be a more cost-efficient
alternative to centralized training.
This paper aims to answer the question: Can deep learning models be
cost-efficiently trained on a global market of spot VMs spanning different data
centers and cloud providers? To provide guidance, we extensively evaluate the
cost and throughput implications of training in different zones, continents,
and clouds for representative CV and NLP models. To expand the current training
options further, we compare the scalability potential for hybrid-cloud
scenarios by adding cloud resources to on-premise hardware to improve training
throughput. Finally, we show how leveraging spot instance pricing enables a new
cost-efficient way to train models with multiple cheap VMs, trumping both more
centralized and powerful hardware and even on-demand cloud offerings at
competitive prices.
- Abstract(参考訳): クラウドや専用ハードウェア上でのディープラーニングモデルのトレーニングは費用がかかる。
よりコスト効率のよい選択肢は、オンデマンドリソースに代わる安価だが短命なスポットインスタンスを提供するハイパースケールクラウドである。
スポットインスタンスの可用性は、日時、大陸、クラウドプロバイダによって変化する可能性があるため、世界中にリソースを分散するコスト効率が向上する可能性がある。
それでも、地理的に分散したデータ並列スポットディープラーニングトレーニングが、集中型トレーニングよりもコスト効率の高い代替手段になるかどうかは、調査されていない。
ディープラーニングモデルは、さまざまなデータセンタやクラウドプロバイダにまたがるスポットVMのグローバル市場において、コスト効率のよいトレーニングが可能か?
CVおよびNLPモデルの代表モデルに対して,異なるゾーン,大陸,雲におけるトレーニングのコストとスループットの影響を広範囲に評価した。
現在のトレーニングオプションをさらに拡大するために、オンプレミスハードウェアにクラウドリソースを追加してトレーニングスループットを向上させることで、ハイブリッドクラウドシナリオのスケーラビリティ可能性を比較する。
最後に、スポットインスタンスの価格を活用することで、複数の安価なVMでモデルをトレーニングし、より中央集権的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を駆使する、新たなコスト効率の方法が実現できることを示します。
関連論文リスト
- Efficient Training of Large Vision Models via Advanced Automated Progressive Learning [96.71646528053651]
我々は、LVM(Large Vision Models)の効率的なトレーニングのための高度な自動プログレッシブラーニング(AutoProg)フレームワークを提案する。
我々はAutoProg-Zeroを導入し、新しいゼロショットフリーズスケジュールサーチによりAutoProgフレームワークを拡張した。
実験の結果、AutoProgはImageNetでViTの事前トレーニングを最大1.85倍加速し、拡散モデルの微調整を最大2.86倍加速する。
論文 参考訳(メタデータ) (2024-09-06T16:24:24Z) - Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。
コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。
実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文 参考訳(メタデータ) (2024-04-22T23:06:42Z) - PredictChain: Empowering Collaboration and Data Accessibility for AI in
a Decentralized Blockchain-based Marketplace [1.4364491422470593]
予測機械学習モデルのためのブロックチェーンベースのマーケットプレース"PredictChain"を提案する。
このマーケットプレースは、予測機械学習モデルをトレーニングするためのデータセットのアップロード、以前にアップロードされたデータセットの要求モデルトレーニング、トレーニングされたモデルへのクエリの提出を可能にする。
論文 参考訳(メタデータ) (2023-07-27T19:56:18Z) - Scavenger: A Cloud Service for Optimizing Cost and Performance of ML
Training [1.047192732651018]
我々は,クラウド上での分散MLモデルトレーニングのトレーニング時間とコストを最適化するための,原則的かつ実用的な手法を開発した。
従来の並列スケーリングの概念とSGDノイズに対する新たな洞察を組み合わせることで,クラスタ構成の異なる時間とコストを5%の誤差で正確に推定する。
論文 参考訳(メタデータ) (2023-03-12T13:42:39Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - Distributed Deep Learning Using Volunteer Computing-Like Paradigm [0.09668407688201358]
多数のパラメータおよび/または大規模なデータセットを備えたディープラーニングモデルをトレーニングすることは禁止されます。
現在のソリューションは、主にクラスタコンピューティングシステム向けに構築されているが、それでも問題となる可能性がある。
我々は、データ並列アプローチを用いて、VCシステム上でDLトレーニングを実行できる分散ソリューションを設計する。
論文 参考訳(メタデータ) (2021-03-16T07:32:58Z) - Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。
現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。
本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文 参考訳(メタデータ) (2020-06-12T14:49:47Z) - Characterizing and Modeling Distributed Training with Transient Cloud
GPU Servers [6.56704851092678]
CM-DAREを用いて,多様なクラスタ構成下での分散トレーニング性能を解析する。
私たちの経験的データセットには、3つのGPUタイプ、6つの地理的領域、20の畳み込みニューラルネットワーク、数千のGoogle Cloudサーバからの計測が含まれています。
また、回帰モデルを用いてトレーニング速度とオーバーヘッドを予測することが可能であることを示す。
論文 参考訳(メタデータ) (2020-04-07T01:49:58Z) - HierTrain: Fast Hierarchical Edge AI Learning with Hybrid Parallelism in
Mobile-Edge-Cloud Computing [36.40138484917463]
我々は階層型AI学習フレームワークであるHierTrainを提案し、階層型MECCアーキテクチャ上でDNNトレーニングタスクを効率的に展開する。
HierTrainがクラウドベースの階層的トレーニングアプローチと比較して最大6.9倍のスピードアップを実現可能であることを示す。
論文 参考訳(メタデータ) (2020-03-22T12:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。