論文の概要: ResIST: Layer-Wise Decomposition of ResNets for Distributed Training
- arxiv url: http://arxiv.org/abs/2107.00961v1
- Date: Fri, 2 Jul 2021 10:48:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 19:25:19.623196
- Title: ResIST: Layer-Wise Decomposition of ResNets for Distributed Training
- Title(参考訳): ResIST: 分散トレーニングのためのResNetのレイヤワイズ分解
- Authors: Chen Dun, Cameron R. Wolfe, Christopher M. Jermaine, Anastasios
Kyrillidis
- Abstract要約: rm textttResISTはResidual Networks(ResNets)のための分散トレーニングプロトコルである
rm textttResISTは、ネットワークパラメータのごく一部しか各マシンに通信せず、トレーニング中に完全なモデルを使用することはない。
rm textttResISTは、モデルの性能に関して競争力がありながら、ウォールクロックのトレーニング時間を減少させる。
- 参考スコア(独自算出の注目度): 10.336445584242933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose {\rm \texttt{ResIST}}, a novel distributed training protocol for
Residual Networks (ResNets). {\rm \texttt{ResIST}} randomly decomposes a global
ResNet into several shallow sub-ResNets that are trained independently in a
distributed manner for several local iterations, before having their updates
synchronized and aggregated into the global model. In the next round, new
sub-ResNets are randomly generated and the process repeats. By construction,
per iteration, {\rm \texttt{ResIST}} communicates only a small portion of
network parameters to each machine and never uses the full model during
training. Thus, {\rm \texttt{ResIST}} reduces the communication, memory, and
time requirements of ResNet training to only a fraction of the requirements of
previous methods. In comparison to common protocols like data-parallel training
and data-parallel training with local SGD, {\rm \texttt{ResIST}} yields a
decrease in wall-clock training time, while being competitive with respect to
model performance.
- Abstract(参考訳): 残差ネットワーク(resnets)のための新しい分散トレーニングプロトコルである {\rm \texttt{resist}} を提案する。
rm \texttt{resist}} は、グローバルレセットをランダムにいくつかの浅いサブレセットに分解し、複数のローカルイテレーションで個別に訓練し、更新を同期させ、グローバルモデルに集約する。
次のラウンドでは、新しいサブResNetがランダムに生成され、プロセスが繰り返される。
構成により、反復毎に {\rm \textt{resist}} はネットワークパラメータのほんの一部を各マシンに通信し、トレーニング中にフルモデルを使用することはない。
したがって、 {\rm \texttt{ResIST}} は、ResNetトレーニングの通信、メモリ、時間要件を、以前のメソッドの要求のごく一部に減らす。
データ並列トレーニングやローカルSGDによるデータ並列トレーニングのような一般的なプロトコルと比較すると、モデルの性能に関して競合する一方で、壁時計のトレーニング時間が減少する。
関連論文リスト
- Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - Recursions Are All You Need: Towards Efficient Deep Unfolding Networks [0.0]
再帰は、深層展開ネットワークにおける冗長性を排除するために用いられる。
学習可能なユニットを導入し、反復回数と現在の反復指数に基づいてモデルの特徴を変調する。
提案するフレームワークにより,学習可能なパラメータの最大75%を削減できると同時に,性能もほぼ維持できる。
論文 参考訳(メタデータ) (2023-05-09T14:54:41Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Layer-Parallel Training of Residual Networks with Auxiliary-Variable
Networks [28.775355111614484]
補助変数法は近年、多くの関心を集めているが、通信オーバーヘッドとデータ拡張の欠如に悩まされている。
本稿では,複数のコンピュータデバイスにまたがる現実的なResNetを学習するための新しい共同学習フレームワークを提案する。
CIFAR-10, CIFAR-100, ImageNetデータセットにまたがるResNetsおよびWideResNetsにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2021-12-10T08:45:35Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Straggler-Resilient Distributed Machine Learning with Dynamic Backup
Workers [9.919012793724628]
作業者毎のバックアップ作業者数を決定するための完全分散アルゴリズムを提案する。
我々のアルゴリズムは収束の線形スピードアップを達成する(すなわち、労働者数に対して収束性能が線形に増加する)。
論文 参考訳(メタデータ) (2021-02-11T21:39:53Z) - Local Critic Training for Model-Parallel Learning of Deep Neural
Networks [94.69202357137452]
そこで我々は,局所的批判訓練と呼ばれる新しいモデル並列学習手法を提案する。
提案手法は,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方において,階層群の更新プロセスの分離に成功したことを示す。
また,提案手法によりトレーニングされたネットワークを構造最適化に利用できることを示す。
論文 参考訳(メタデータ) (2021-02-03T09:30:45Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Restructuring, Pruning, and Adjustment of Deep Models for Parallel
Distributed Inference [15.720414948573753]
複数の処理ノード(ワーカ)上で既に訓練済みのディープモデルの並列実装について検討する。
並列化モデル全体の性能を保証するレイヤワイドモデル再構成およびプルーニング手法であるRePurposeを提案する。
既存の手法と比較して,RePurposeは並列実装による分散推論の効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2020-08-19T06:44:41Z) - A Practical Sparse Approximation for Real Time Recurrent Learning [38.19296522866088]
Real Time Recurrent Learning (RTRL)は、履歴ストレージの必要性をなくし、オンラインの重み更新を可能にする。
RTRL 影響行列に Sparse n-step Approximation (SnAp) を導入する。
高度にスパースなネットワークでは、n=2のSnApは引き続きトラクタブルであり、更新がオンラインで行われる場合の学習速度において、時間を通してバックプロパゲーションを上回ります。
論文 参考訳(メタデータ) (2020-06-12T14:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。