論文の概要: How Can We Train Deep Learning Models Across Clouds and Continents? An Experimental Study
- arxiv url: http://arxiv.org/abs/2306.03163v4
- Date: Sun, 2 Jun 2024 09:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 21:29:55.897781
- Title: How Can We Train Deep Learning Models Across Clouds and Continents? An Experimental Study
- Title(参考訳): 雲と大陸にまたがる深層学習モデルの学習方法 : 実験的検討
- Authors: Alexander Erben, Ruben Mayer, Hans-Arno Jacobsen,
- Abstract要約: 代表的なCV, NLP, ASRモデルに対して, 異なるゾーン, 大陸, 雲におけるトレーニングの費用とスループットについて検討した。
スポット価格を活用することで、複数の安価なインスタンスでモデルをトレーニングし、より集中的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を台無しにする、新たなコスト効率の方法が実現されることを示す。
- 参考スコア(独自算出の注目度): 57.97785297481162
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper aims to answer the question: Can deep learning models be cost-efficiently trained on a global market of spot VMs spanning different data centers and cloud providers? To provide guidance, we extensively evaluate the cost and throughput implications of training in different zones, continents, and clouds for representative CV, NLP, and ASR models. To expand the current training options further, we compare the scalability potential for hybrid-cloud scenarios by adding cloud resources to on-premise hardware to improve training throughput. Finally, we show how leveraging spot instance pricing enables a new cost-efficient way to train models with multiple cheap VMs, trumping both more centralized and powerful hardware and even on-demand cloud offerings at competitive prices.
- Abstract(参考訳): ディープラーニングモデルは、さまざまなデータセンタやクラウドプロバイダにまたがるスポットVMのグローバル市場において、コスト効率のよいトレーニングが可能か?
そこで本研究では,CV,NLP,ASRモデルに対して,異なるゾーン,大陸,雲におけるトレーニングのコストとスループットの影響を広範囲に評価した。
現在のトレーニングオプションをさらに拡張するために、トレーニングスループットを改善するためにオンプレミスハードウェアにクラウドリソースを追加することで、ハイブリッドクラウドシナリオのスケーラビリティの可能性を比較する。
最後に、スポットインスタンスの価格を活用することで、複数の安価なVMでモデルをトレーニングし、より中央集権的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を駆使する、新たなコスト効率の方法が実現できることを示します。
関連論文リスト
- A Look Into Training Large Language Models on Next Generation Datacenters [70.3084616806354]
私たちは、Microsoftが1000億ドルのMLデータセンターを構築する計画から始めて、関連研究の方向性を見つけるために、従来からあるアプローチを取っています。
私たちのゴールは、このようなデータセンターでどんなモデルをトレーニングできるか、それに直面する可能性のあるハイレベルな課題を理解することです。
データセンタの構築とそのようなモデルのトレーニングは技術的に可能であると結論付けていますが、これは新しいNICベースのマルチパストランスポートと、トレーニングスタック全体の再設計が必要です。
論文 参考訳(メタデータ) (2024-07-01T10:33:46Z) - Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。
コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。
実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文 参考訳(メタデータ) (2024-04-22T23:06:42Z) - PredictChain: Empowering Collaboration and Data Accessibility for AI in
a Decentralized Blockchain-based Marketplace [1.4364491422470593]
予測機械学習モデルのためのブロックチェーンベースのマーケットプレース"PredictChain"を提案する。
このマーケットプレースは、予測機械学習モデルをトレーニングするためのデータセットのアップロード、以前にアップロードされたデータセットの要求モデルトレーニング、トレーニングされたモデルへのクエリの提出を可能にする。
論文 参考訳(メタデータ) (2023-07-27T19:56:18Z) - Scavenger: A Cloud Service for Optimizing Cost and Performance of ML
Training [1.047192732651018]
我々は,クラウド上での分散MLモデルトレーニングのトレーニング時間とコストを最適化するための,原則的かつ実用的な手法を開発した。
従来の並列スケーリングの概念とSGDノイズに対する新たな洞察を組み合わせることで,クラスタ構成の異なる時間とコストを5%の誤差で正確に推定する。
論文 参考訳(メタデータ) (2023-03-12T13:42:39Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - Distributed Deep Learning Using Volunteer Computing-Like Paradigm [0.09668407688201358]
多数のパラメータおよび/または大規模なデータセットを備えたディープラーニングモデルをトレーニングすることは禁止されます。
現在のソリューションは、主にクラスタコンピューティングシステム向けに構築されているが、それでも問題となる可能性がある。
我々は、データ並列アプローチを用いて、VCシステム上でDLトレーニングを実行できる分散ソリューションを設計する。
論文 参考訳(メタデータ) (2021-03-16T07:32:58Z) - Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。
現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。
本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文 参考訳(メタデータ) (2020-06-12T14:49:47Z) - Characterizing and Modeling Distributed Training with Transient Cloud
GPU Servers [6.56704851092678]
CM-DAREを用いて,多様なクラスタ構成下での分散トレーニング性能を解析する。
私たちの経験的データセットには、3つのGPUタイプ、6つの地理的領域、20の畳み込みニューラルネットワーク、数千のGoogle Cloudサーバからの計測が含まれています。
また、回帰モデルを用いてトレーニング速度とオーバーヘッドを予測することが可能であることを示す。
論文 参考訳(メタデータ) (2020-04-07T01:49:58Z) - HierTrain: Fast Hierarchical Edge AI Learning with Hybrid Parallelism in
Mobile-Edge-Cloud Computing [36.40138484917463]
我々は階層型AI学習フレームワークであるHierTrainを提案し、階層型MECCアーキテクチャ上でDNNトレーニングタスクを効率的に展開する。
HierTrainがクラウドベースの階層的トレーニングアプローチと比較して最大6.9倍のスピードアップを実現可能であることを示す。
論文 参考訳(メタデータ) (2020-03-22T12:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。