論文の概要: DynO: Dynamic Onloading of Deep Neural Networks from Cloud to Device
- arxiv url: http://arxiv.org/abs/2104.09949v1
- Date: Tue, 20 Apr 2021 13:20:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:47:18.508267
- Title: DynO: Dynamic Onloading of Deep Neural Networks from Cloud to Device
- Title(参考訳): DynO: クラウドからデバイスへのディープニューラルネットワークの動的負荷
- Authors: Mario Almeida, Stefanos Laskaridis, Stylianos I. Venieris, Ilias
Leontiadis, Nicholas D. Lane
- Abstract要約: 両世界のベストを組み合わせ、いくつかの課題に取り組む分散推論フレームワークであるDynOを紹介します。
DynO が現在の最先端のパフォーマンスを上回り、デバイスのみの実行よりも桁違いにスループットが向上していることを示します。
- 参考スコア(独自算出の注目度): 17.43467167013752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been an explosive growth of mobile and embedded
applications using convolutional neural networks(CNNs). To alleviate their
excessive computational demands, developers have traditionally resorted to
cloud offloading, inducing high infrastructure costs and a strong dependence on
networking conditions. On the other end, the emergence of powerful SoCs is
gradually enabling on-device execution. Nonetheless, low- and mid-tier
platforms still struggle to run state-of-the-art CNNs sufficiently. In this
paper, we present DynO, a distributed inference framework that combines the
best of both worlds to address several challenges, such as device
heterogeneity, varying bandwidth and multi-objective requirements. Key
components that enable this are its novel CNN-specific data packing method,
which exploits the variability of precision needs in different parts of the CNN
when onloading computation, and its novel scheduler that jointly tunes the
partition point and transferred data precision at run time to adapt inference
to its execution environment. Quantitative evaluation shows that DynO
outperforms the current state-of-the-art, improving throughput by over an order
of magnitude over device-only execution and up to 7.9x over competing CNN
offloading systems, with up to 60x less data transferred.
- Abstract(参考訳): 近年,畳み込みニューラルネットワーク(CNN)を用いたモバイルおよび組み込みアプリケーションの爆発的な成長が進んでいる。
過剰な計算要求を軽減するため、開発者は伝統的にクラウドのオフロードに頼り、高いインフラストラクチャコストとネットワーク条件への強い依存を誘発してきた。
一方、強力なSoCの出現は徐々にデバイス上での実行を可能にしている。
それでも、低層と中層のプラットフォームは、最先端のCNNを十分に走らせるのに苦戦している。
本稿では,デバイスの不均一性,帯域幅の変動,多目的要求などの課題を解決するために,両世界のベストを組み合わせる分散推論フレームワークdynoを提案する。
これを実現するための重要なコンポーネントは,CNN 固有のデータパッキング手法である。これは,負荷計算における CNN のさまざまな部分における精度要求の変動を利用して,その実行環境に推論を適用するために,分割点と転送されたデータ精度を共同で調整するスケジューラである。
定量的評価はdynoが現在の最先端技術を上回ることを示し、デバイスのみの実行よりもスループットを最大7.9倍向上させ、競合cnnオフロードシステムに比べて最大60倍少ないデータ転送を実現している。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Transferability of Convolutional Neural Networks in Stationary Learning
Tasks [96.00428692404354]
本稿では,大規模な空間問題に対する畳み込みニューラルネットワーク(CNN)の効率的なトレーニングのための新しいフレームワークを提案する。
このような信号の小さなウィンドウで訓練されたCNNは、再学習することなく、はるかに大きなウィンドウでほぼ性能を発揮することを示す。
以上の結果から,CNNは10人未満の訓練を受けた後,数百人のエージェントによる問題に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-07-21T13:51:45Z) - Slimmable Encoders for Flexible Split DNNs in Bandwidth and Resource
Constrained IoT Systems [12.427821850039448]
本稿では,スリム化可能なアンサンブルエンコーダに基づく分割計算手法を提案する。
私たちの設計の主な利点は、計算負荷と送信データサイズを最小限のオーバーヘッドと時間でリアルタイムで適応できることです。
本モデルでは,圧縮効率や実行時間,特にモバイルデバイスの弱い状況において,既存のソリューションよりも優れています。
論文 参考訳(メタデータ) (2023-06-22T06:33:12Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - FTPipeHD: A Fault-Tolerant Pipeline-Parallel Distributed Training
Framework for Heterogeneous Edge Devices [21.513786638743234]
FTPipeHDは、異種デバイス間でディープラーニングモデルをトレーニングする新しいフレームワークである。
FTPipeHDは、最高のデバイスの計算能力が最悪のものより10倍大きい場合、アートメソッドの状態よりもトレーニングで6.8倍高速であることが示されている。
論文 参考訳(メタデータ) (2021-10-06T14:00:22Z) - SPINN: Synergistic Progressive Inference of Neural Networks over Device
and Cloud [13.315410752311768]
一般的な選択肢は、CNN処理をクラウドベースの強力なサーバにオフロードすることである。
SPINNは、同期型デバイスクラウドとプログレッシブ推論手法を併用した分散推論システムである。
これは、不確実な接続条件下での堅牢な操作と、クラウド中心の実行と比較してかなりの省エネを提供する。
論文 参考訳(メタデータ) (2020-08-14T15:00:19Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。