論文の概要: LCP: A Low-Communication Parallelization Method for Fast Neural Network
Inference in Image Recognition
- arxiv url: http://arxiv.org/abs/2003.06464v2
- Date: Tue, 17 Nov 2020 17:15:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 02:15:31.502516
- Title: LCP: A Low-Communication Parallelization Method for Fast Neural Network
Inference in Image Recognition
- Title(参考訳): LCP:画像認識における高速ニューラルネットワーク推論のための低コミュニケーション並列化手法
- Authors: Ramyad Hadidi, Bahar Asgari, Jiashen Cao, Younmin Bae, Da Eun Shim,
Hyojong Kim, Sung-Kyu Lim, Michael S. Ryoo, Hyesoon Kim
- Abstract要約: そこで本研究では, ほぼ独立な複数の枝と狭い枝からなるモデルを用いた低通信並列化手法を提案する。
当社では,AWSインスタンス,Raspberry Pi,PYNQボードという,3つの分散システムにLCPモデルをデプロイしています。
LCPモデルは、オリジナルのモデルと比べて56倍と7倍の平均的なスピードアップを達成し、平均的なスピードアップを33倍に改善することができた。
- 参考スコア(独自算出の注目度): 33.581285906182075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) have inspired new studies in myriad edge
applications with robots, autonomous agents, and Internet-of-things (IoT)
devices. However, performing inference of DNNs in the edge is still a severe
challenge, mainly because of the contradiction between the intensive resource
requirements of DNNs and the tight resource availability in several edge
domains. Further, as communication is costly, taking advantage of other
available edge devices by using data- or model-parallelism methods is not an
effective solution. To benefit from available compute resources with low
communication overhead, we propose the first DNN parallelization method for
reducing the communication overhead in a distributed system. We propose a
low-communication parallelization (LCP) method in which models consist of
several almost-independent and narrow branches. LCP offers close-to-minimum
communication overhead with better distribution and parallelization
opportunities while significantly reducing memory footprint and computation
compared to data- and model-parallelism methods. We deploy LCP models on three
distributed systems: AWS instances, Raspberry Pis, and PYNQ boards. We also
evaluate the performance of LCP models on a customized hardware (tailored for
low latency) implemented on a small edge FPGA and as a 16mW 0.107mm2 ASIC @7nm
chip. LCP models achieve a maximum and average speedups of 56x and 7x, compared
to the originals, which could be improved by up to an average speedup of 33x by
incorporating common optimizations such as pruning and quantization.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、ロボット、自律エージェント、IoT(Internet-of-Things)デバイスによる無数のエッジアプリケーションにおける新たな研究に影響を与えた。
しかし、DNNの集中的なリソース要求と複数のエッジドメインにおけるリソースの厳密な可用性との間に矛盾があるため、エッジでのDNNの推測は依然として深刻な課題である。
さらに通信コストが高いため,データ並列方式やモデル並列方式による他のエッジデバイスの利用は有効ではない。
通信オーバヘッドの少ない計算資源を活用するため,分散システムにおける通信オーバヘッドを低減するための最初のDNN並列化手法を提案する。
本稿では,モデルが非依存な枝と狭枝からなる低通信並列化(lcp)手法を提案する。
LCPは、データおよびモデル並列方式と比較してメモリフットプリントと計算を著しく削減しつつ、分散と並列化の機会を向上した、最小間通信オーバーヘッドを提供する。
lcpモデルを3つの分散システム(awsインスタンス、raspberry pi、pynqボード)にデプロイします。
また、小型FPGAと16mW 0.107mm2 ASIC @7nmチップ上に実装されたカスタマイズハードウェア(低レイテンシに適した)上でのLCPモデルの性能を評価する。
lcpモデルでは、オリジナルモデルと比較して最大56倍と平均7倍のスピードアップを達成しており、プラニングや量子化といった一般的な最適化を取り入れることで、平均33倍のスピードアップを実現できる。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Accelerating Split Federated Learning over Wireless Communication
Networks [17.97006656280742]
我々は、連立学習(FL)の並列モデル学習機構と分割学習(SL)のモデル分割構造を組み合わせた分割学習(SFL)フレームワークを検討する。
システム遅延を最小限に抑えるために,分割点選択と帯域割り当ての連立問題を定式化する。
実験の結果,レイテンシ低減と精度向上における作業の優位性を実証した。
論文 参考訳(メタデータ) (2023-10-24T07:49:56Z) - Combining Multi-Objective Bayesian Optimization with Reinforcement Learning for TinyML [4.2019872499238256]
マルチオブジェクトベイズ最適化(MOBOpt)に基づくマイクロコントローラ(TinyML)にディープニューラルネットワークをデプロイするための新しい戦略を提案する。
本手法は,DNNの予測精度,メモリ消費量,計算複雑性のトレードオフを効率的に検出することを目的としている。
論文 参考訳(メタデータ) (2023-05-23T14:31:52Z) - Receptive Field-based Segmentation for Distributed CNN Inference
Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文 参考訳(メタデータ) (2022-07-22T18:38:11Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Communication-Efficient Separable Neural Network for Distributed
Inference on Edge Devices [2.28438857884398]
本稿では,分散推論のためのニューラルネットワークを分離するために,モデル並列性を利用する新しい手法を提案する。
デバイスの適切な仕様とモデルの構成の下で、エッジクラスタ上の大規模ニューラルネットワークの推論が分散し、加速可能であることを示す実験を行った。
論文 参考訳(メタデータ) (2021-11-03T19:30:28Z) - Computational Intelligence and Deep Learning for Next-Generation
Edge-Enabled Industrial IoT [51.68933585002123]
エッジ対応産業用IoTネットワークにおける計算知能とディープラーニング(DL)の展開方法について検討する。
本稿では,新しいマルチエグジットベースフェデレーションエッジ学習(ME-FEEL)フレームワークを提案する。
特に、提案されたME-FEELは、非常に限られたリソースを持つ産業用IoTネットワークにおいて、最大32.7%の精度を達成することができる。
論文 参考訳(メタデータ) (2021-10-28T08:14:57Z) - Deep Learning-based Resource Allocation For Device-to-Device
Communication [66.74874646973593]
デバイス間通信(D2D)を用いたマルチチャネルセルシステムにおいて,リソース割り当ての最適化のためのフレームワークを提案する。
任意のチャネル条件に対する最適な資源配分戦略をディープニューラルネットワーク(DNN)モデルにより近似する深層学習(DL)フレームワークを提案する。
シミュレーションの結果,提案手法のリアルタイム性能を低速で実現できることが確認された。
論文 参考訳(メタデータ) (2020-11-25T14:19:23Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。