論文の概要: Pipeline Parallelism for Inference on Heterogeneous Edge Computing
- arxiv url: http://arxiv.org/abs/2110.14895v1
- Date: Thu, 28 Oct 2021 05:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 16:26:57.715496
- Title: Pipeline Parallelism for Inference on Heterogeneous Edge Computing
- Title(参考訳): 不均一エッジコンピューティングの推論のためのパイプライン並列性
- Authors: Yang Hu, Connor Imes, Xuanang Zhao, Souvik Kundu, Peter A. Beerel,
Stephen P. Crago, John Paul N. Walters
- Abstract要約: コンピュータビジョン(CV)と自然言語処理(NLP)におけるタスクの最先端結果を実現するモデルサイズが大きいディープニューラルネットワーク
これらの大規模モデルは、リソース制約のあるエッジデバイスには計算集約的すぎるか、メモリ集約的すぎる。
パイプライン並列性を使用して推論を高速化し、単一エッジデバイスに適合しない大規模なモデルの実行を可能にするエッジシステム用の分散フレームワークであるEdgePipeを提案する。
- 参考スコア(独自算出の注目度): 9.745025902229882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks with large model sizes achieve state-of-the-art results
for tasks in computer vision (CV) and natural language processing (NLP).
However, these large-scale models are too compute- or memory-intensive for
resource-constrained edge devices. Prior works on parallel and distributed
execution primarily focus on training -- rather than inference -- using
homogeneous accelerators in data centers. We propose EdgePipe, a distributed
framework for edge systems that uses pipeline parallelism to both speed up
inference and enable running larger (and more accurate) models that otherwise
cannot fit on single edge devices. EdgePipe achieves these results by using an
optimal partition strategy that considers heterogeneity in compute, memory, and
network bandwidth. Our empirical evaluation demonstrates that EdgePipe achieves
$10.59\times$ and $11.88\times$ speedup using 16 edge devices for the ViT-Large
and ViT-Huge models, respectively, with no accuracy loss. Similarly, EdgePipe
improves ViT-Huge throughput by $3.93\times$ over a 4-node baseline using 16
edge devices, which independently cannot fit the model in memory. Finally, we
show up to $4.16\times$ throughput improvement over the state-of-the-art
PipeDream when using a heterogeneous set of devices.
- Abstract(参考訳): 大きなモデルサイズを持つディープニューラルネットワークは、コンピュータビジョン(CV)と自然言語処理(NLP)におけるタスクの最先端の結果を達成する。
しかし、これらの大規模モデルは、リソース制約のあるエッジデバイスには計算集約的あるいはメモリ集約的すぎる。
並列実行と分散実行に先行する作業は、主にデータセンターで均質なアクセラレータを使用する推論ではなく、トレーニングに重点を置いている。
これは、パイプライン並列性を使用して推論を高速化し、単一エッジデバイスには適用できないより大きな(そしてより正確な)モデルの実行を可能にするエッジシステムのための分散フレームワークである。
edgepipeは、計算、メモリ、ネットワーク帯域の異質性を考慮した最適な分割戦略を用いて、これらの結果を達成する。
実験により、EdgePipeはViT-LargeモデルとViT-Hugeモデルでそれぞれ16のエッジデバイスを使用して10.59\times$と188\times$のスピードアップを達成した。
同様にEdgePipeは、ViT-Hugeスループットを16のエッジデバイスを使用して4ノードベースラインで$3.93\times$で改善している。
最後に、異種デバイスのセットを使用する場合、最先端のPipeDreamよりも4.16\times$スループットが改善される。
関連論文リスト
- Iterative Filter Pruning for Concatenation-based CNN Architectures [9.651318927588934]
現代の物体検出器は、連結を伴う高度に相互接続された畳み込み層を有する。
本稿では,畳み込み層間の接続グラフに基づいて,連結層を扱う手法を提案する。
FPGAとNVIDIA Jetson Xavier AGXにプルーンドモデルをデプロイする。
論文 参考訳(メタデータ) (2024-05-04T19:40:42Z) - ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - AccEPT: An Acceleration Scheme for Speeding Up Edge Pipeline-parallel
Training [22.107070114339038]
本稿では,エッジ協調パイプライン並列トレーニングを高速化するアクセラレーションスキームであるAccEPTを提案する。
特に,異なるデバイスにおける各レイヤの遅延を正確に推定する軽量適応遅延予測器を提案する。
数値計算の結果,提案手法により,エッジパイプラインの並列学習を最大3倍高速化できることがわかった。
論文 参考訳(メタデータ) (2023-11-10T02:18:33Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z) - Receptive Field-based Segmentation for Distributed CNN Inference
Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文 参考訳(メタデータ) (2022-07-22T18:38:11Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - 1$\times$N Block Pattern for Network Sparsity [90.43191747596491]
我々は,この制限を破るために,ブロック間隔パターン(ブロックプルーニング)を1時間で定義する新しい概念を提案する。
このパターンはMobileNet-V2の上位1の精度でフィルタプルーニングよりも約3.0%改善されている。
また、重み付けによるCortex-A7 CPUの56.04msの推論も得る。
論文 参考訳(メタデータ) (2021-05-31T05:50:33Z) - Pipelined Training with Stale Weights of Deep Convolutional Neural
Networks [0.1921787217122713]
パイプライン化バックプロパゲーション方式の統計的効率と性能に及ぼす固定重みの影響について検討する。
パイプライニングがネットワークの初期の層に限られている場合、固定重み付きトレーニングが収束し、同じ精度のモデルが得られることを示す。
本稿では,パイプライン型と非パイプライン型を併用したハイブリッドスキームを提案する。
論文 参考訳(メタデータ) (2019-12-29T15:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。