論文の概要: Layer-Wise Partitioning and Merging for Efficient and Scalable Deep
Learning
- arxiv url: http://arxiv.org/abs/2207.11019v1
- Date: Fri, 22 Jul 2022 11:47:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:42:44.897508
- Title: Layer-Wise Partitioning and Merging for Efficient and Scalable Deep
Learning
- Title(参考訳): 効率的・スケーラブルなディープラーニングのための層分割とマージ
- Authors: Samson B. Akintoye, Liangxiu Han, Huw Lloyd, Xin Zhang, Darren Dancey,
Haoming Chen, and Daoqiang Zhang
- Abstract要約: 我々は、より優れたトレーニング性能を提供するために、新しいレイヤワイドパーティショニングとマージ、前方および後方パス並列フレームワークを提案している。
実使用事例を実験的に評価したところ,提案手法は訓練速度において最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 16.38731019298993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Neural Network (DNN) models are usually trained sequentially from one
layer to another, which causes forward, backward and update locking's problems,
leading to poor performance in terms of training time. The existing parallel
strategies to mitigate these problems provide suboptimal runtime performance.
In this work, we have proposed a novel layer-wise partitioning and merging,
forward and backward pass parallel framework to provide better training
performance. The novelty of the proposed work consists of 1) a layer-wise
partition and merging model which can minimise communication overhead between
devices without the memory cost of existing strategies during the training
process; 2) a forward pass and backward pass parallelisation and optimisation
to address the update locking problem and minimise the total training cost. The
experimental evaluation on real use cases shows that the proposed method
outperforms the state-of-the-art approaches in terms of training speed; and
achieves almost linear speedup without compromising the accuracy performance of
the non-parallel approach.
- Abstract(参考訳): ディープニューラルネットワーク(dnn)モデルは、通常、ある層から別の層へと順次訓練され、前方、後方、ロックの問題を更新し、トレーニング時間に関して性能が低下する。
これらの問題を緩和するための既存の並列戦略は、準最適ランタイムのパフォーマンスを提供する。
本研究では,新しいレイヤ分割とマージ,前方および後方パス並列フレームワークを提案し,トレーニング性能の向上を実現した。
提案された作品の新規性は
1) トレーニングプロセス中に既存の戦略のメモリコストを伴わずにデバイス間の通信オーバーヘッドを最小限に抑えることができる層分割統合モデル
2) 更新ロック問題に対処するためのフォワードパスと後方パスの並列化と最適化、総トレーニングコストの最小化。
実使用例における実験的評価により, 提案手法は訓練速度の点で最先端手法よりも優れており, 非並列手法の精度を損なうことなく, ほぼ線形速度向上を達成していることが示された。
関連論文リスト
- LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Accelerating Inference in Large Language Models with a Unified Layer Skipping Strategy [67.45518210171024]
動的計算手法は、いくつかの計算層をスキップすることで、Large Language Models (LLM) に対する顕著な加速を示す。
対象の高速化率のみに基づいて計算をスキップする層数を選択する統一層スキーッピング戦略を提案する。
機械翻訳とテキスト要約という2つの共通タスクの実験結果は、目標速度比が与えられた場合、統一層スキーピング戦略は推論性能と実際のモデルスループットの両方を著しく向上させることを示している。
論文 参考訳(メタデータ) (2024-04-10T12:12:07Z) - Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。
本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。
本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Practical Convex Formulation of Robust One-hidden-layer Neural Network
Training [12.71266194474117]
本研究では,一層型スカラーアウトプット完全接続型ReLULUニューラルネットワークのトレーニングを,有限次元凸プログラムとして再構成可能であることを示す。
我々は「敵の訓練」問題を効率的に解くために凸最適化手法を導出する。
本手法は二項分類と回帰に応用でき、現在の対角訓練法に代わる手段を提供する。
論文 参考訳(メタデータ) (2021-05-25T22:06:27Z) - Optimizer Fusion: Efficient Training with Better Locality and
Parallelism [11.656318345362804]
実験の結果,様々な構成で最大20%のトレーニング時間を短縮できることがわかった。
提案手法はアルゴリズムを変更しないため,訓練プロセスの一般的な「プラグイン」技術として利用することができる。
論文 参考訳(メタデータ) (2021-04-01T03:44:13Z) - A Practical Layer-Parallel Training Algorithm for Residual Networks [41.267919563145604]
ResNetのトレーニングのための勾配ベースのアルゴリズムは、通常、入力データの前方パスを必要とし、続いてパラメータを更新するために目的の勾配をバックプロパゲートする。
本稿では,データ拡張を実現するための新しいシリアル並列ハイブリッドトレーニング戦略と,通信コスト削減のためのダウンサンプリングフィルタを提案する。
論文 参考訳(メタデータ) (2020-09-03T06:03:30Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Restructuring, Pruning, and Adjustment of Deep Models for Parallel
Distributed Inference [15.720414948573753]
複数の処理ノード(ワーカ)上で既に訓練済みのディープモデルの並列実装について検討する。
並列化モデル全体の性能を保証するレイヤワイドモデル再構成およびプルーニング手法であるRePurposeを提案する。
既存の手法と比較して,RePurposeは並列実装による分散推論の効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2020-08-19T06:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。