論文の概要: Restructuring, Pruning, and Adjustment of Deep Models for Parallel
Distributed Inference
- arxiv url: http://arxiv.org/abs/2008.08289v1
- Date: Wed, 19 Aug 2020 06:44:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 09:09:25.225749
- Title: Restructuring, Pruning, and Adjustment of Deep Models for Parallel
Distributed Inference
- Title(参考訳): 並列分散推論のための深部モデルの再構成, 刈り取り, 調整
- Authors: Afshin Abdi, Saeed Rashidi, Faramarz Fekri, Tushar Krishna
- Abstract要約: 複数の処理ノード(ワーカ)上で既に訓練済みのディープモデルの並列実装について検討する。
並列化モデル全体の性能を保証するレイヤワイドモデル再構成およびプルーニング手法であるRePurposeを提案する。
既存の手法と比較して,RePurposeは並列実装による分散推論の効率を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 15.720414948573753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using multiple nodes and parallel computing algorithms has become a principal
tool to improve training and execution times of deep neural networks as well as
effective collective intelligence in sensor networks. In this paper, we
consider the parallel implementation of an already-trained deep model on
multiple processing nodes (a.k.a. workers) where the deep model is divided into
several parallel sub-models, each of which is executed by a worker. Since
latency due to synchronization and data transfer among workers negatively
impacts the performance of the parallel implementation, it is desirable to have
minimum interdependency among parallel sub-models. To achieve this goal, we
propose to rearrange the neurons in the neural network and partition them
(without changing the general topology of the neural network), such that the
interdependency among sub-models is minimized under the computations and
communications constraints of the workers. We propose RePurpose, a layer-wise
model restructuring and pruning technique that guarantees the performance of
the overall parallelized model. To efficiently apply RePurpose, we propose an
approach based on $\ell_0$ optimization and the Munkres assignment algorithm.
We show that, compared to the existing methods, RePurpose significantly
improves the efficiency of the distributed inference via parallel
implementation, both in terms of communication and computational complexity.
- Abstract(参考訳): 複数のノードと並列コンピューティングアルゴリズムを使用することで、深層ニューラルネットワークのトレーニングと実行時間を改善すると同時に、センサネットワークにおける効果的な集団知性も向上する。
本稿では,複数の処理ノード(例えばワーカ)上ですでに訓練済みの深層モデルを並列に実装し,その深層モデルを複数の並列サブモデルに分割し,それぞれをワーカで実行する。
作業者の同期とデータ転送によるレイテンシは並列実装の性能に悪影響を及ぼすため、並列サブモデル間の最小相互依存性を持つことが望ましい。
この目的を達成するために、ニューラルネットワーク内のニューロンを再構成して分割し(ニューラルネットワークの一般的なトポロジを変更することなく)、労働者の計算や通信制約の下でサブモデル間の相互依存性を最小限に抑えることを提案する。
並列化モデル全体の性能を保証するレイヤワイドモデル再構成およびプルーニング手法であるRePurposeを提案する。
RePurposeを効率的に適用するために、$\ell_0$最適化とMunkres代入アルゴリズムに基づくアプローチを提案する。
既存の手法と比較して,並列実装による分散推論の効率が,通信量と計算量の両方において大幅に向上することを示す。
関連論文リスト
- Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Layer-Wise Partitioning and Merging for Efficient and Scalable Deep
Learning [16.38731019298993]
我々は、より優れたトレーニング性能を提供するために、新しいレイヤワイドパーティショニングとマージ、前方および後方パス並列フレームワークを提案している。
実使用事例を実験的に評価したところ,提案手法は訓練速度において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-07-22T11:47:34Z) - Partitioning sparse deep neural networks for scalable training and
inference [8.282177703075453]
最先端のディープニューラルネットワーク(DNN)には、計算とデータ管理の大幅な要件がある。
スパシフィケーション法とプルーニング法は,DNNの大量の接続を除去するのに有効であることが示されている。
その結果得られたスパースネットワークは、ディープラーニングにおけるトレーニングと推論の計算効率をさらに向上するためのユニークな課題を提示する。
論文 参考訳(メタデータ) (2021-04-23T20:05:52Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - A Linear Algebraic Approach to Model Parallelism in Deep Learning [0.0]
ネットワークのサイズと複雑さが大きくなるにつれて、大規模クラスタコンピューティング環境でのディープニューラルネットワーク(DNN)のトレーニングがますます必要になる。
深層学習における並列性をモデル化するための線形代数的手法を提案し,DNNにおけるテンソルの並列分布を実現する。
本研究では,これらの並列プリミティブを用いて分散DNN層を構築し,PyTorchおよびMPIベースの分散ディープラーニングツールキットであるDistDLを用いて分散DNNを構築し,訓練することにより,それらのアプリケーションを実演する。
論文 参考訳(メタデータ) (2020-06-04T19:38:05Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。