論文の概要: Dynamic DNN Decomposition for Lossless Synergistic Inference
- arxiv url: http://arxiv.org/abs/2101.05952v1
- Date: Fri, 15 Jan 2021 03:18:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 11:11:29.894207
- Title: Dynamic DNN Decomposition for Lossless Synergistic Inference
- Title(参考訳): 損失のない相乗的推論のための動的DNN分解
- Authors: Beibei Zhang, Tian Xiang, Hongxuan Zhang, Te Li, Shiqiang Zhu, Jianjun
Gu
- Abstract要約: ディープニューラルネットワーク(DNN)は、今日のデータ処理アプリケーションで高性能を維持します。
精度損失のない相乗的推論のための動的DNN分解システムD3を提案する。
d3は最先端のdnn推論時間を最大3.4倍に上回り、バックボーンネットワーク通信のオーバーヘッドを3.68倍に削減する。
- 参考スコア(独自算出の注目度): 0.9549013615433989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) sustain high performance in today's data
processing applications. DNN inference is resource-intensive thus is difficult
to fit into a mobile device. An alternative is to offload the DNN inference to
a cloud server. However, such an approach requires heavy raw data transmission
between the mobile device and the cloud server, which is not suitable for
mission-critical and privacy-sensitive applications such as autopilot. To solve
this problem, recent advances unleash DNN services using the edge computing
paradigm. The existing approaches split a DNN into two parts and deploy the two
partitions to computation nodes at two edge computing tiers. Nonetheless, these
methods overlook collaborative device-edge-cloud computation resources.
Besides, previous algorithms demand the whole DNN re-partitioning to adapt to
computation resource changes and network dynamics. Moreover, for
resource-demanding convolutional layers, prior works do not give a parallel
processing strategy without loss of accuracy at the edge side. To tackle these
issues, we propose D3, a dynamic DNN decomposition system for synergistic
inference without precision loss. The proposed system introduces a heuristic
algorithm named horizontal partition algorithm to split a DNN into three parts.
The algorithm can partially adjust the partitions at run time according to
processing time and network conditions. At the edge side, a vertical separation
module separates feature maps into tiles that can be independently run on
different edge nodes in parallel. Extensive quantitative evaluation of five
popular DNNs illustrates that D3 outperforms the state-of-the-art counterparts
up to 3.4 times in end-to-end DNN inference time and reduces backbone network
communication overhead up to 3.68 times.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、今日のデータ処理アプリケーションで高性能を維持している。
DNN推論はリソース集約型であるため、モバイルデバイスに適合することは困難である。
別の方法は、DNN推論をクラウドサーバにオフロードすることだ。
しかし、このようなアプローチはモバイルデバイスとクラウドサーバの間で大量の生データ通信を必要とするため、オートパイロットのようなミッションクリティカルでプライバシに敏感なアプリケーションには適さない。
この問題を解決するために、エッジコンピューティングパラダイムを用いてDNNサービスを解き放つ。
既存のアプローチでは、DNNを2つに分割し、2つのパーティションを2つのエッジコンピューティング層で計算ノードにデプロイする。
それにもかかわらず、これらの手法は、コラボレーティブなデバイス-クラウド計算資源を見落としている。
さらに、従来のアルゴリズムでは、計算リソースの変更やネットワークのダイナミクスに適応するために、DNN全体を分割する必要がある。
さらに、リソース要求の畳み込み層では、事前の作業はエッジ側で精度を失うことなく並列処理戦略を提供しない。
そこで本研究では,相乗的推論のための動的dnn分解システムd3を提案する。
提案システムでは,DNNを3つの部分に分割する水平分割アルゴリズムを提案する。
アルゴリズムは、処理時間とネットワーク条件に応じて、実行時のパーティションを部分的に調整することができる。
エッジ側では、垂直分離モジュールがフィーチャーマップをタイルに分離し、異なるエッジノード上で独立して並列に実行できる。
5つの人気DNNの大規模な定量的評価は、D3が最先端のDNN推論時間で最大3.4倍、バックボーンネットワーク通信オーバヘッドが最大3.68倍に向上していることを示している。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - DVFO: Learning-Based DVFS for Energy-Efficient Edge-Cloud Collaborative
Inference [12.095934624748686]
本稿では,新しいDVFS対応エッジクラウド協調推論フレームワークであるDVFOを提案する。
エッジデバイスのCPU、GPU、メモリの周波数を自動的に最適化し、機能マップをクラウドサーバにオフロードする。
最先端の計画に比べて、エネルギー消費を平均で33%削減する。
論文 参考訳(メタデータ) (2023-06-02T07:00:42Z) - A Survey on Deep Neural Network Partition over Cloud, Edge and End
Devices [6.248548718574856]
ディープニューラルネットワーク(DNN)パーティションは、DNNを複数の部分に分割し、特定の場所にオフロードする研究問題である。
本稿では,クラウド,エッジ,エンドデバイス上でのDNNパーティションアプローチの最近の進歩と課題について,包括的調査を行う。
論文 参考訳(メタデータ) (2023-04-20T00:17:27Z) - A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate
Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。
本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。
我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T15:02:11Z) - Receptive Field-based Segmentation for Distributed CNN Inference
Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文 参考訳(メタデータ) (2022-07-22T18:38:11Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - A Case For Adaptive Deep Neural Networks in Edge Computing [1.683310745678261]
本稿では,エッジコンピューティングにおいて適応型ディープニューラルネットワーク(DNN)が存在するかを検討する。
その結果,ネットワーク条件がCPUやメモリ関連動作条件よりもDNNの性能に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2020-08-04T20:23:50Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。