論文の概要: AccEPT: An Acceleration Scheme for Speeding Up Edge Pipeline-parallel
Training
- arxiv url: http://arxiv.org/abs/2311.05827v1
- Date: Fri, 10 Nov 2023 02:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 16:09:36.220038
- Title: AccEPT: An Acceleration Scheme for Speeding Up Edge Pipeline-parallel
Training
- Title(参考訳): accept: エッジパイプライン並列トレーニングの高速化のための加速方式
- Authors: Yuhao Chen, Yuxuan Yan, Qianqian Yang, Yuanchao Shu, Shibo He, Zhiguo
Shi, Jiming Chen
- Abstract要約: 本稿では,エッジ協調パイプライン並列トレーニングを高速化するアクセラレーションスキームであるAccEPTを提案する。
特に,異なるデバイスにおける各レイヤの遅延を正確に推定する軽量適応遅延予測器を提案する。
数値計算の結果,提案手法により,エッジパイプラインの並列学習を最大3倍高速化できることがわかった。
- 参考スコア(独自算出の注目度): 22.107070114339038
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: It is usually infeasible to fit and train an entire large deep neural network
(DNN) model using a single edge device due to the limited resources. To
facilitate intelligent applications across edge devices, researchers have
proposed partitioning a large model into several sub-models, and deploying each
of them to a different edge device to collaboratively train a DNN model.
However, the communication overhead caused by the large amount of data
transmitted from one device to another during training, as well as the
sub-optimal partition point due to the inaccurate latency prediction of
computation at each edge device can significantly slow down training. In this
paper, we propose AccEPT, an acceleration scheme for accelerating the edge
collaborative pipeline-parallel training. In particular, we propose a
light-weight adaptive latency predictor to accurately estimate the computation
latency of each layer at different devices, which also adapts to unseen devices
through continuous learning. Therefore, the proposed latency predictor leads to
better model partitioning which balances the computation loads across
participating devices. Moreover, we propose a bit-level computation-efficient
data compression scheme to compress the data to be transmitted between devices
during training. Our numerical results demonstrate that our proposed
acceleration approach is able to significantly speed up edge pipeline parallel
training up to 3 times faster in the considered experimental settings.
- Abstract(参考訳): 通常、リソースが限られているため、単一のエッジデバイスを使用して、大規模なディープニューラルネットワーク(DNN)モデル全体を適合させ、トレーニングすることは不可能である。
エッジデバイス間のインテリジェントなアプリケーションを容易にするために、研究者は大きなモデルを複数のサブモデルに分割し、それぞれを異なるエッジデバイスにデプロイしてdnnモデルを協調的にトレーニングすることを提案している。
しかし、訓練中にあるデバイスから他のデバイスに送信される大量のデータによる通信オーバーヘッドや、各エッジデバイスでの計算の不正確な遅延予測による最適以下の分割ポイントは、トレーニングを著しく遅くすることができる。
本稿では,エッジ協調パイプライン並列訓練を高速化するアクセラレーションスキームであるAccEPTを提案する。
特に,異なるデバイスにおける各レイヤの計算遅延を正確に推定する軽量適応遅延予測器を提案する。
したがって,提案するレイテンシ予測器は,計算負荷のバランスをとるモデルパーティショニングが向上する。
さらに,トレーニング中にデバイス間で送信されるデータを圧縮するビットレベル計算効率のデータ圧縮方式を提案する。
数値計算の結果,提案手法により,実験条件下でのエッジパイプラインの並列訓練を最大3倍高速化できることがわかった。
関連論文リスト
- Edge-Enabled Real-time Railway Track Segmentation [0.0]
エッジ対応鉄道線路分割アルゴリズムを提案する。
ネットワーク構造を最適化し、トレーニング後のモデルを定量化することで、エッジアプリケーションに適したように最適化されている。
実験結果から,提案アルゴリズムの精度は83.3%であった。
論文 参考訳(メタデータ) (2024-01-21T13:45:52Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z) - Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。
既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。
本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文 参考訳(メタデータ) (2022-11-01T14:38:18Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Fast-Convergent Federated Learning [82.32029953209542]
フェデレーション学習は、モバイルデバイスの現代的なネットワークを介して機械学習タスクを分散するための、有望なソリューションである。
本稿では,FOLBと呼ばれる高速収束型フェデレーション学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-26T14:37:51Z) - Joint Device Scheduling and Resource Allocation for Latency Constrained
Wireless Federated Learning [26.813145949399427]
FL(Federated Learning)では、デバイスがローカルモデルの更新を無線チャネル経由でアップロードする。
モデル精度を最大化するために,共同装置スケジューリングと資源配分ポリシーを提案する。
実験の結果,提案手法は最先端のスケジューリング方式よりも優れていた。
論文 参考訳(メタデータ) (2020-07-14T16:46:47Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。