Fugu-MT 論文翻訳(概要): Dynamic backup workers for parallel machine learning

論文の概要: Dynamic backup workers for parallel machine learning

arxiv url: http://arxiv.org/abs/2004.14696v2
Date: Mon, 25 Jan 2021 01:35:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-08 05:35:47.961513
Title: Dynamic backup workers for parallel machine learning
Title（参考訳）: 並列機械学習のための動的バックアップワーカー
Authors: Chuan Xu, Giovanni Neglia, Nicola Sebastianelli
Abstract要約: 本稿では,トレーニングプロセス中のバックアップ作業者の数を動的に決定し,各イテレーションにおける収束速度を最大化するアルゴリズムを提案する。実験の結果,DBW 1) は予備的な時間消費実験により$b$ のチューニングの必要性を排除し,2) 最適な静的構成よりも3$ のトレーニングを高速にすることがわかった。
参考スコア（独自算出の注目度）: 10.813576865492767
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The most popular framework for distributed training of machine learning models is the (synchronous) parameter server (PS). This paradigm consists of $n$ workers, which iteratively compute updates of the model parameters, and a stateful PS, which waits and aggregates all updates to generate a new estimate of model parameters and sends it back to the workers for a new iteration. Transient computation slowdowns or transmission delays can intolerably lengthen the time of each iteration. An efficient way to mitigate this problem is to let the PS wait only for the fastest $n-b$ updates, before generating the new parameters. The slowest $b$ workers are called backup workers. The optimal number $b$ of backup workers depends on the cluster configuration and workload, but also (as we show in this paper) on the hyper-parameters of the learning algorithm and the current stage of the training. We propose DBW, an algorithm that dynamically decides the number of backup workers during the training process to maximize the convergence speed at each iteration. Our experiments show that DBW 1) removes the necessity to tune $b$ by preliminary time-consuming experiments, and 2) makes the training up to a factor $3$ faster than the optimal static configuration.
Abstract（参考訳）: 機械学習モデルの分散トレーニングのための最も一般的なフレームワークは、(同期)パラメータサーバ(PS)である。このパラダイムは、モデルパラメータの更新を反復的に計算する$n$ workersと、すべての更新を待機して集約してモデルパラメータの新たな推定を生成し、それを新しいイテレーションのためにワーカーに送信するステートフルpsで構成されている。過渡的計算のスローダウンや伝達遅延は、各イテレーションの時間を許容できないほど長くすることができる。この問題を緩和する効果的な方法は、PSが新しいパラメータを生成する前に、最速の$n-b$更新だけを待機させることである。最も遅い$b$ワーカーはバックアップワーカーと呼ばれる。バックアップワーカーの最適数である$b$は、クラスタの構成とワークロードに依存しますが、学習アルゴリズムのハイパーパラメータとトレーニングの現在のステージにも依存しています。トレーニングプロセス中のバックアップワーカー数を動的に決定し,各イテレーションにおける収束速度を最大化するアルゴリズムDBWを提案する。我々の実験からDBWは 1)予備的な時間消費実験によるb$のチューニングの必要性を取り除き、 2) トレーニングを最適な静的設定よりも3ドル高速にする。

関連論文リスト

Position-Aware Depth Decay Decoding ($D^3$): Boosting Large Language Model Inference Efficiency [26.173523821684306]
トークン配置対応層スキップフレームワークを提案し,性能を維持しつつ1.5倍の演算を効率よく節約する。 7 sim 70$のパラメータを持つ大規模言語モデルの実験では、D3$は完全な推論パイプラインと比較して平均1.5倍のスピードアップを達成することができる。
論文参考訳（メタデータ） (2025-03-11T15:15:54Z)
$\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文参考訳（メタデータ） (2023-03-26T16:39:44Z)
MAP: Memory-aware Automated Intra-op Parallel Training For Foundation Models [15.256207550970501]
我々は PyTorch 上に構築された MAP を紹介した。 MAPは既存の手法と比較して、任意のPyTorchモデルのメモリおよび計算統計を生成するのに使いやすいシンボリックプロファイラを提供する。
論文参考訳（メタデータ） (2023-02-06T07:22:49Z)
Dimensionality Reduced Training by Pruning and Freezing Parts of a Deep Neural Network, a Survey [69.3939291118954]
最先端のディープラーニングモデルには、何十億にも達するパラメータカウントがある。そのようなモデルのトレーニング、保存、転送は、エネルギーと時間を要するため、コストがかかる。モデル圧縮は、ストレージと転送コストを低減し、フォワードおよび/または後方パスでの計算数を減少させることで、トレーニングをより効率的にすることができる。この研究は、トレーニング全体を通してディープラーニングモデルでトレーニングされた重量を減らす方法に関する調査である。
論文参考訳（メタデータ） (2022-05-17T05:37:08Z)
Efficient Distributed Machine Learning via Combinatorial Multi-Armed Bandits [23.289979018463406]
我々は、主ノードが$n$ワーカー間で勾配計算を分散する分散勾配降下問題を考え、そこから少なくとも$b leq n$を並列に利用することができる。すべてのワーカーにタスクを割り当て、$k$の高速なものだけを待つことで、メインノードはアルゴリズムが進化するにつれて徐々に$k$を増大させることで、アルゴリズムのエラーをランタイムとトレードオフすることができる。この戦略はアダプティブkシンクと呼ばれ、遅い作業者の計算作業を無視するため、追加のコストを発生させることができる。タスクを$k$にのみ割り当てるコスト効率の高いスキームを提案する。
論文参考訳（メタデータ） (2022-02-16T19:18:19Z)
Optimizer Fusion: Efficient Training with Better Locality and Parallelism [11.656318345362804]
実験の結果,様々な構成で最大20%のトレーニング時間を短縮できることがわかった。提案手法はアルゴリズムを変更しないため,訓練プロセスの一般的な「プラグイン」技術として利用することができる。
論文参考訳（メタデータ） (2021-04-01T03:44:13Z)
Straggler-Resilient Distributed Machine Learning with Dynamic Backup Workers [9.919012793724628]
作業者毎のバックアップ作業者数を決定するための完全分散アルゴリズムを提案する。我々のアルゴリズムは収束の線形スピードアップを達成する(すなわち、労働者数に対して収束性能が線形に増加する)。
論文参考訳（メタデータ） (2021-02-11T21:39:53Z)
Timely Communication in Federated Learning [65.1253801733098]
我々は,パラメータサーバ(PS)が,クラウドサーバにクライアントデータを集中的に格納することなく,$n$クライアントを用いてグローバルモデルを訓練するグローバルラーニングフレームワークを検討する。提案されたスキームでは、各イテレーションでPSは$m$のクライアントを待ち、現在のモデルを送信する。各クライアントが経験する情報の平均年齢を見つけ、与えられた$n$の年齢最適値である$m$と$k$を数値的に特徴付ける。
論文参考訳（メタデータ） (2020-12-31T18:52:08Z)
Training Recommender Systems at Scale: Communication-Efficient Model and Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。 DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文参考訳（メタデータ） (2020-10-18T01:44:42Z)
Tasks, stability, architecture, and compute: Training more effective learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文参考訳（メタデータ） (2020-09-23T16:35:09Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。