論文の概要: Machine Learning on Volatile Instances
- arxiv url: http://arxiv.org/abs/2003.05649v1
- Date: Thu, 12 Mar 2020 07:47:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 14:13:51.818122
- Title: Machine Learning on Volatile Instances
- Title(参考訳): 揮発性インスタンスの機械学習
- Authors: Xiaoxi Zhang, Jianyu Wang, Gauri Joshi, and Carlee Joe-Wong
- Abstract要約: この研究は、(プリエンプションの結果)アクティブワーカーノード数の変動がSGD収束とモデルをトレーニングする時間にどのように影響するかを定量化した最初のものである。
我々は,標準的なインスタンスよりも安価な揮発性クラウドインスタンスを利用するための費用対効果戦略を提案する。
- 参考スコア(独自算出の注目度): 40.19551148721116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the massive size of the neural network models and training datasets
used in machine learning today, it is imperative to distribute stochastic
gradient descent (SGD) by splitting up tasks such as gradient evaluation across
multiple worker nodes. However, running distributed SGD can be prohibitively
expensive because it may require specialized computing resources such as GPUs
for extended periods of time. We propose cost-effective strategies to exploit
volatile cloud instances that are cheaper than standard instances, but may be
interrupted by higher priority workloads. To the best of our knowledge, this
work is the first to quantify how variations in the number of active worker
nodes (as a result of preemption) affects SGD convergence and the time to train
the model. By understanding these trade-offs between preemption probability of
the instances, accuracy, and training time, we are able to derive practical
strategies for configuring distributed SGD jobs on volatile instances such as
Amazon EC2 spot instances and other preemptible cloud instances. Experimental
results show that our strategies achieve good training performance at
substantially lower cost.
- Abstract(参考訳): 今日の機械学習で使用されるニューラルネットワークモデルとトレーニングデータセットの巨大なサイズのため、複数のワーカノード間で勾配評価などのタスクを分割することで、確率勾配降下(SGD)を分散することが不可欠である。
しかし、分散sgdの実行は、gpuのような特別な計算リソースを長時間必要とするため、非常に高価である。
標準インスタンスよりも安価だが、優先度の高いワークロードによって中断される可能性のある揮発性クラウドインスタンスを利用するためのコスト効率の高い戦略を提案する。
我々の知る限りでは、この研究は(プリエンプションの結果として)アクティブワーカーノード数の変動がSGD収束とモデルをトレーニングする時間にどのように影響するかを定量化する最初のものである。
インスタンスのプリエンプション確率、精度、トレーニング時間のトレードオフを理解することで、Amazon EC2スポットインスタンスや他のプリエンプティブルクラウドインスタンスのような揮発性インスタンス上で分散SGDジョブを設定するための実用的な戦略を導出することができます。
実験の結果,良好なトレーニング性能を極めて低いコストで達成できることがわかった。
関連論文リスト
- FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。
事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。
これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-09-28T08:57:17Z) - Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。
特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。
提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文 参考訳(メタデータ) (2024-05-05T00:08:00Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Singularity: Planet-Scale, Preemptible, Elastic Scheduling of AI
Workloads [12.117736592836506]
私たちは、ディープラーニングトレーニングと推論ワークロードのためのMicrosoftのグローバル分散スケジューリングサービスであるSingularityを紹介します。
Singularityの中心は、透過的にプリエンプションし、弾力的にディープラーニングワークロードをスケール可能な、新しいワークロード対応スケジューラである。
Singularityによる結果の効率性と信頼性の向上は、定常状態の性能に無視できない影響で達成されることを示す。
論文 参考訳(メタデータ) (2022-02-16T04:02:10Z) - Accelerating Deep Learning with Dynamic Data Pruning [0.0]
ディープラーニングは、最先端のネットワークをトレーニングするために強力なコンピューティングシステムへのアクセスを必要とするため、違法にコストがかかるようになった。
forget scoresやGraNd/EL2N scoresといった以前の作業では、完全なデータセット内の重要なサンプルを特定し、残りのサンプルを刈り取ることで、エポック毎のイテレーションを減らすことができる。
本稿では,強化学習手法に基づく2つのアルゴリズムを提案し,ランダムな動的手法よりも高い精度でサンプルを動的にプーンする。
論文 参考訳(メタデータ) (2021-11-24T16:47:34Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。