Fugu-MT 論文翻訳(概要): AccEPT: An Acceleration Scheme for Speeding Up Edge Pipeline-parallel Training

論文の概要: AccEPT: An Acceleration Scheme for Speeding Up Edge Pipeline-parallel Training

arxiv url: http://arxiv.org/abs/2311.05827v1
Date: Fri, 10 Nov 2023 02:18:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-13 16:09:36.220038
Title: AccEPT: An Acceleration Scheme for Speeding Up Edge Pipeline-parallel Training
Title（参考訳）: accept: エッジパイプライン並列トレーニングの高速化のための加速方式
Authors: Yuhao Chen, Yuxuan Yan, Qianqian Yang, Yuanchao Shu, Shibo He, Zhiguo Shi, Jiming Chen
Abstract要約: 本稿では,エッジ協調パイプライン並列トレーニングを高速化するアクセラレーションスキームであるAccEPTを提案する。特に,異なるデバイスにおける各レイヤの遅延を正確に推定する軽量適応遅延予測器を提案する。数値計算の結果,提案手法により,エッジパイプラインの並列学習を最大3倍高速化できることがわかった。
参考スコア（独自算出の注目度）: 22.107070114339038
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: It is usually infeasible to fit and train an entire large deep neural network (DNN) model using a single edge device due to the limited resources. To facilitate intelligent applications across edge devices, researchers have proposed partitioning a large model into several sub-models, and deploying each of them to a different edge device to collaboratively train a DNN model. However, the communication overhead caused by the large amount of data transmitted from one device to another during training, as well as the sub-optimal partition point due to the inaccurate latency prediction of computation at each edge device can significantly slow down training. In this paper, we propose AccEPT, an acceleration scheme for accelerating the edge collaborative pipeline-parallel training. In particular, we propose a light-weight adaptive latency predictor to accurately estimate the computation latency of each layer at different devices, which also adapts to unseen devices through continuous learning. Therefore, the proposed latency predictor leads to better model partitioning which balances the computation loads across participating devices. Moreover, we propose a bit-level computation-efficient data compression scheme to compress the data to be transmitted between devices during training. Our numerical results demonstrate that our proposed acceleration approach is able to significantly speed up edge pipeline parallel training up to 3 times faster in the considered experimental settings.
Abstract（参考訳）: 通常、リソースが限られているため、単一のエッジデバイスを使用して、大規模なディープニューラルネットワーク(DNN)モデル全体を適合させ、トレーニングすることは不可能である。エッジデバイス間のインテリジェントなアプリケーションを容易にするために、研究者は大きなモデルを複数のサブモデルに分割し、それぞれを異なるエッジデバイスにデプロイしてdnnモデルを協調的にトレーニングすることを提案している。しかし、訓練中にあるデバイスから他のデバイスに送信される大量のデータによる通信オーバーヘッドや、各エッジデバイスでの計算の不正確な遅延予測による最適以下の分割ポイントは、トレーニングを著しく遅くすることができる。本稿では,エッジ協調パイプライン並列訓練を高速化するアクセラレーションスキームであるAccEPTを提案する。特に,異なるデバイスにおける各レイヤの計算遅延を正確に推定する軽量適応遅延予測器を提案する。したがって,提案するレイテンシ予測器は,計算負荷のバランスをとるモデルパーティショニングが向上する。さらに,トレーニング中にデバイス間で送信されるデータを圧縮するビットレベル計算効率のデータ圧縮方式を提案する。数値計算の結果,提案手法により,実験条件下でのエッジパイプラインの並列訓練を最大3倍高速化できることがわかった。

関連論文リスト

Federated Split Learning with Model Pruning and Gradient Quantization in Wireless Networks [7.439160287320074]
Federated split learning (FedSL)は、モデル分割によるエッジデバイスとサーバ間の協調トレーニングを実装している。本稿では,リソース制約のあるエッジデバイスのトレーニング負担を軽減する軽量なFedSL方式を提案する。提案手法の収束性能を定量化するために理論的解析を行う。
論文参考訳（メタデータ） (2024-12-09T11:43:03Z)
DeMo: Decoupled Momentum Optimization [6.169574689318864]
大規模ニューラルネットワークのトレーニングは通常、特別な高速相互接続を通じてアクセラレータ間の共有を必要とする。本稿では,bfDecoupled textbfMomentum (DeMo)を提案する。実験の結果,DeMoでトレーニングしたモデルとAdamWでトレーニングした同等のモデルのパフォーマンスが一致したか,あるいは上回った。
論文参考訳（メタデータ） (2024-11-29T17:31:47Z)
Edge-Enabled Real-time Railway Track Segmentation [0.0]
エッジ対応鉄道線路分割アルゴリズムを提案する。ネットワーク構造を最適化し、トレーニング後のモデルを定量化することで、エッジアプリケーションに適したように最適化されている。実験結果から,提案アルゴリズムの精度は83.3%であった。
論文参考訳（メタデータ） (2024-01-21T13:45:52Z)
Efficient Asynchronous Federated Learning with Sparsification and Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。 FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。 TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文参考訳（メタデータ） (2023-12-23T07:47:07Z)
Design and Prototyping Distributed CNN Inference Acceleration in Edge Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文参考訳（メタデータ） (2022-11-24T19:48:30Z)
Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文参考訳（メタデータ） (2022-11-01T14:38:18Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Fast-Convergent Federated Learning [82.32029953209542]
フェデレーション学習は、モバイルデバイスの現代的なネットワークを介して機械学習タスクを分散するための、有望なソリューションである。本稿では,FOLBと呼ばれる高速収束型フェデレーション学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-26T14:37:51Z)
Joint Device Scheduling and Resource Allocation for Latency Constrained Wireless Federated Learning [26.813145949399427]
FL(Federated Learning)では、デバイスがローカルモデルの更新を無線チャネル経由でアップロードする。モデル精度を最大化するために,共同装置スケジューリングと資源配分ポリシーを提案する。実験の結果,提案手法は最先端のスケジューリング方式よりも優れていた。
論文参考訳（メタデータ） (2020-07-14T16:46:47Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。