Fugu-MT 論文翻訳(概要): How Can We Train Deep Learning Models Across Clouds and Continents? An Experimental Study

論文の概要: How Can We Train Deep Learning Models Across Clouds and Continents? An Experimental Study

arxiv url: http://arxiv.org/abs/2306.03163v4
Date: Sun, 2 Jun 2024 09:53:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-04 21:29:55.897781
Title: How Can We Train Deep Learning Models Across Clouds and Continents? An Experimental Study
Title（参考訳）: 雲と大陸にまたがる深層学習モデルの学習方法 : 実験的検討
Authors: Alexander Erben, Ruben Mayer, Hans-Arno Jacobsen,
Abstract要約: 代表的なCV, NLP, ASRモデルに対して, 異なるゾーン, 大陸, 雲におけるトレーニングの費用とスループットについて検討した。スポット価格を活用することで、複数の安価なインスタンスでモデルをトレーニングし、より集中的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を台無しにする、新たなコスト効率の方法が実現されることを示す。
参考スコア（独自算出の注目度）: 57.97785297481162
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper aims to answer the question: Can deep learning models be cost-efficiently trained on a global market of spot VMs spanning different data centers and cloud providers? To provide guidance, we extensively evaluate the cost and throughput implications of training in different zones, continents, and clouds for representative CV, NLP, and ASR models. To expand the current training options further, we compare the scalability potential for hybrid-cloud scenarios by adding cloud resources to on-premise hardware to improve training throughput. Finally, we show how leveraging spot instance pricing enables a new cost-efficient way to train models with multiple cheap VMs, trumping both more centralized and powerful hardware and even on-demand cloud offerings at competitive prices.
Abstract（参考訳）: ディープラーニングモデルは、さまざまなデータセンタやクラウドプロバイダにまたがるスポットVMのグローバル市場において、コスト効率のよいトレーニングが可能か? そこで本研究では,CV,NLP,ASRモデルに対して,異なるゾーン,大陸,雲におけるトレーニングのコストとスループットの影響を広範囲に評価した。現在のトレーニングオプションをさらに拡張するために、トレーニングスループットを改善するためにオンプレミスハードウェアにクラウドリソースを追加することで、ハイブリッドクラウドシナリオのスケーラビリティの可能性を比較する。最後に、スポットインスタンスの価格を活用することで、複数の安価なVMでモデルをトレーニングし、より中央集権的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を駆使する、新たなコスト効率の方法が実現できることを示します。

関連論文リスト

Deep Learning Model Deployment in Multiple Cloud Providers: an Exploratory Study Using Low Computing Power Environments [0.0]
本研究では,GPUを使わずにクラウドベースの機械学習推論ソリューションの実現可能性と実現可能性を示す。クラウドプロバイダ毎のリアルタイムレイテンシ,ハードウェア使用量,コストを,10実験を再現した7つの実行環境で評価した。
論文参考訳（メタデータ） (2025-03-31T11:58:37Z)
Efficient Training of Large Vision Models via Advanced Automated Progressive Learning [96.71646528053651]
我々は、LVM(Large Vision Models)の効率的なトレーニングのための高度な自動プログレッシブラーニング(AutoProg)フレームワークを提案する。我々はAutoProg-Zeroを導入し、新しいゼロショットフリーズスケジュールサーチによりAutoProgフレームワークを拡張した。実験の結果、AutoProgはImageNetでViTの事前トレーニングを最大1.85倍加速し、拡散モデルの微調整を最大2.86倍加速する。
論文参考訳（メタデータ） (2024-09-06T16:24:24Z)
Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文参考訳（メタデータ） (2024-04-22T23:06:42Z)
PredictChain: Empowering Collaboration and Data Accessibility for AI in a Decentralized Blockchain-based Marketplace [1.4364491422470593]
予測機械学習モデルのためのブロックチェーンベースのマーケットプレース"PredictChain"を提案する。このマーケットプレースは、予測機械学習モデルをトレーニングするためのデータセットのアップロード、以前にアップロードされたデータセットの要求モデルトレーニング、トレーニングされたモデルへのクエリの提出を可能にする。
論文参考訳（メタデータ） (2023-07-27T19:56:18Z)
Scavenger: A Cloud Service for Optimizing Cost and Performance of ML Training [1.047192732651018]
我々は,クラウド上での分散MLモデルトレーニングのトレーニング時間とコストを最適化するための,原則的かつ実用的な手法を開発した。従来の並列スケーリングの概念とSGDノイズに対する新たな洞察を組み合わせることで,クラスタ構成の異なる時間とコストを5%の誤差で正確に推定する。
論文参考訳（メタデータ） (2023-03-12T13:42:39Z)
Offline Q-Learning on Diverse Multi-Task Data Both Scales And Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文参考訳（メタデータ） (2022-11-28T08:56:42Z)
Decentralized Training of Foundation Models in Heterogeneous Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文参考訳（メタデータ） (2022-06-02T20:19:51Z)
Distributed Deep Learning Using Volunteer Computing-Like Paradigm [0.09668407688201358]
多数のパラメータおよび/または大規模なデータセットを備えたディープラーニングモデルをトレーニングすることは禁止されます。現在のソリューションは、主にクラスタコンピューティングシステム向けに構築されているが、それでも問題となる可能性がある。我々は、データ並列アプローチを用いて、VCシステム上でDLトレーニングを実行できる分散ソリューションを設計する。
論文参考訳（メタデータ） (2021-03-16T07:32:58Z)
Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文参考訳（メタデータ） (2020-06-12T14:49:47Z)
Characterizing and Modeling Distributed Training with Transient Cloud GPU Servers [6.56704851092678]
CM-DAREを用いて,多様なクラスタ構成下での分散トレーニング性能を解析する。私たちの経験的データセットには、3つのGPUタイプ、6つの地理的領域、20の畳み込みニューラルネットワーク、数千のGoogle Cloudサーバからの計測が含まれています。また、回帰モデルを用いてトレーニング速度とオーバーヘッドを予測することが可能であることを示す。
論文参考訳（メタデータ） (2020-04-07T01:49:58Z)
HierTrain: Fast Hierarchical Edge AI Learning with Hybrid Parallelism in Mobile-Edge-Cloud Computing [36.40138484917463]
我々は階層型AI学習フレームワークであるHierTrainを提案し、階層型MECCアーキテクチャ上でDNNトレーニングタスクを効率的に展開する。 HierTrainがクラウドベースの階層的トレーニングアプローチと比較して最大6.9倍のスピードアップを実現可能であることを示す。
論文参考訳（メタデータ） (2020-03-22T12:40:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。