論文の概要: Scheduling DNNs on Edge Servers
- arxiv url: http://arxiv.org/abs/2304.09961v1
- Date: Wed, 19 Apr 2023 20:46:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 15:17:50.391300
- Title: Scheduling DNNs on Edge Servers
- Title(参考訳): エッジサーバ上のDNNのスケジューリング
- Authors: Jian He, Chenxi Yang, Zhaoyuan He, Ghufran Baig, Lili Qiu
- Abstract要約: 本稿では,ディープニューラルネットワークを用いた複数クライアントのエッジサーバ処理の高速化について検討する。
我々はまず,同一のDNNを実行するすべての要求の利点を利用するために,新しいスケジューリングアルゴリズムを設計する。
次に、異なるDNNを使用するリクエストを、共有レイヤの有無に関わらず処理するようにアルゴリズムを拡張します。
- 参考スコア(独自算出の注目度): 6.437829777289881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) have been widely used in various video analytic
tasks. These tasks demand real-time responses. Due to the limited processing
power on mobile devices, a common way to support such real-time analytics is to
offload the processing to an edge server. This paper examines how to speed up
the edge server DNN processing for multiple clients. In particular, we observe
batching multiple DNN requests significantly speeds up the processing time.
Based on this observation, we first design a novel scheduling algorithm to
exploit the batching benefits of all requests that run the same DNN. This is
compelling since there are only a handful of DNNs and many requests tend to use
the same DNN. Our algorithms are general and can support different objectives,
such as minimizing the completion time or maximizing the on-time ratio. We then
extend our algorithm to handle requests that use different DNNs with or without
shared layers. Finally, we develop a collaborative approach to further improve
performance by adaptively processing some of the requests or portions of the
requests locally at the clients. This is especially useful when the network
and/or server is congested. Our implementation shows the effectiveness of our
approach under different request distributions (e.g., Poisson, Pareto, and
Constant inter-arrivals).
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は様々なビデオ分析タスクで広く利用されている。
これらのタスクはリアルタイム応答を要求する。
モバイルデバイスの処理能力が限られているため、そのようなリアルタイム分析をサポートする一般的な方法は、処理をエッジサーバにオフロードすることだ。
本稿では,複数のクライアントに対するエッジサーバdnn処理の高速化について検討する。
特に,複数のDNN要求のバッチ化は処理時間を著しく短縮する。
この観測に基づいて、我々はまず、同一のDNNを実行する全てのリクエストのバッチ処理の利点を利用する新しいスケジューリングアルゴリズムを設計する。
なぜなら、少数のDNNが存在し、多くのリクエストが同じDNNを使用する傾向があるからだ。
私たちのアルゴリズムは汎用的で、完了時間の最小化やオンタイム比の最大化など、さまざまな目標をサポートできます。
次に、異なるDNNを使用するリクエストを、共有レイヤの有無に関わらず処理するようにアルゴリズムを拡張します。
最後に,クライアントの局所的な要求の一部や部分の処理を適応的に行うことにより,パフォーマンスを向上させるための協調的アプローチを開発した。
これは特にネットワークやサーバが混雑している場合に便利である。
本実装は,異なる要求分布(例えば,poisson,pareto,constant inter-arrivals)下でのアプローチの有効性を示す。
関連論文リスト
- Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - Modelling Long Range Dependencies in $N$D: From Task-Specific to a
General Purpose CNN [47.205463459723056]
我々は、任意の解像度、次元、長さのデータを処理することができる単一のCNNであるContinuous Convolutional Neural Network (CCNN)を提案する。
主要なコンポーネントは、各レイヤにおける長距離依存関係をモデル化する継続的畳み込みカーネルである。
私たちのCCNNは、検討されたすべてのタスクにおいて、現在の最先端よりも優れています。
論文 参考訳(メタデータ) (2023-01-25T12:12:47Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Improving the Performance of DNN-based Software Services using Automated
Layer Caching [3.804240190982695]
ディープニューラルネットワーク(DNN)は、Webベースのサービスを含む多くのアプリケーションドメインにおいて、不可欠なコンポーネントとなっている。
このような大規模モデルの計算複雑性は依然として比較的重要であり、低推論遅延を妨げている。
本稿では,DNNベースのサービスの性能向上のためのエンドツーエンド自動ソリューションを提案する。
論文 参考訳(メタデータ) (2022-09-18T18:21:20Z) - Automated machine learning for borehole resistivity measurements [0.0]
ディープニューラルネットワーク(DNN)は、ボアホール比抵抗測定の反転のためのリアルタイムソリューションを提供する。
非常に大きなDNNを使って演算子を近似することができるが、かなりの訓練時間を必要とする。
本研究では,DNNの精度とサイズを考慮したスコアリング機能を提案する。
論文 参考訳(メタデータ) (2022-07-20T12:27:22Z) - Towards a General Purpose CNN for Long Range Dependencies in
$\mathrm{N}$D [49.57261544331683]
構造変化のない任意の解像度,次元,長さのタスクに対して,連続的な畳み込みカーネルを備えた単一CNNアーキテクチャを提案する。
1$mathrmD$)とビジュアルデータ(2$mathrmD$)の幅広いタスクに同じCCNNを適用することで、我々のアプローチの汎用性を示す。
私たちのCCNNは競争力があり、検討されたすべてのタスクで現在の最先端を上回ります。
論文 参考訳(メタデータ) (2022-06-07T15:48:02Z) - Decentralized Low-Latency Collaborative Inference via Ensembles on the
Edge [28.61344039233783]
本稿では,複数のユーザが推論中に協力して精度を向上させることで,エッジ上でのディープニューラルネットワーク(DNN)の適用を容易にすることを提案する。
私たちのメカニズムは、エッジアンサンブル(em edge ensembles)と呼ばれ、各デバイスに様々な予測子を持ち、推論中にモデルのアンサンブルを形成する。
エッジアンサンブルによって引き起こされる遅延を分析し、その性能改善は、通信ネットワーク上の一般的な前提の下で、わずかな追加遅延のコストで生じることを示す。
論文 参考訳(メタデータ) (2022-06-07T10:24:20Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - iRNN: Integer-only Recurrent Neural Network [0.8766022970635899]
精度の高い整数専用リカレントニューラルネットワーク(iRNN)を得るための量子化学習法を提案する。
当社のiRNNは、フル精度のものと同等のパフォーマンスを維持しており、スマートフォンへの展開により、ランタイムのパフォーマンスが2倍、モデルサイズが4倍に向上しています。
論文 参考訳(メタデータ) (2021-09-20T20:17:40Z) - Boosting Deep Neural Networks with Geometrical Prior Knowledge: A Survey [77.99182201815763]
ディープニューラルネットワーク(DNN)は多くの異なる問題設定において最先端の結果を達成する。
DNNはしばしばブラックボックスシステムとして扱われ、評価と検証が複雑になる。
コンピュータビジョンタスクにおける畳み込みニューラルネットワーク(CNN)の成功に触発された、有望な分野のひとつは、対称幾何学的変換に関する知識を取り入れることである。
論文 参考訳(メタデータ) (2020-06-30T14:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。