論文の概要: BCEdge: SLO-Aware DNN Inference Services with Adaptive Batching on Edge
Platforms
- arxiv url: http://arxiv.org/abs/2305.01519v1
- Date: Mon, 1 May 2023 02:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 13:57:08.117554
- Title: BCEdge: SLO-Aware DNN Inference Services with Adaptive Batching on Edge
Platforms
- Title(参考訳): BCEdge: エッジプラットフォーム上の適応バッチを備えたSLO対応DNN推論サービス
- Authors: Ziyang Zhang, Huan Li, Yang Zhao, Changyao Lin, and Jie Liu
- Abstract要約: ディープニューラルネットワーク(DNN)は、幅広いエッジインテリジェントアプリケーションに適用されている。
エッジ推論プラットフォームが高レイテンシと低レイテンシの両方を持つことは、非常に重要です。
本稿では,新しい学習ベーススケジューリングフレームワークBCEdgeを提案する。
- 参考スコア(独自算出の注目度): 12.095934624748686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As deep neural networks (DNNs) are being applied to a wide range of edge
intelligent applications, it is critical for edge inference platforms to have
both high-throughput and low-latency at the same time. Such edge platforms with
multiple DNN models pose new challenges for scheduler designs. First, each
request may have different service level objectives (SLOs) to improve quality
of service (QoS). Second, the edge platforms should be able to efficiently
schedule multiple heterogeneous DNN models so that system utilization can be
improved. To meet these two goals, this paper proposes BCEdge, a novel
learning-based scheduling framework that takes adaptive batching and concurrent
execution of DNN inference services on edge platforms. We define a utility
function to evaluate the trade-off between throughput and latency. The
scheduler in BCEdge leverages maximum entropy-based deep reinforcement learning
(DRL) to maximize utility by 1) co-optimizing batch size and 2) the number of
concurrent models automatically. Our prototype implemented on different edge
platforms shows that the proposed BCEdge enhances utility by up to 37.6% on
average, compared to state-of-the-art solutions, while satisfying SLOs.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、幅広いエッジインテリジェントアプリケーションに適用されているため、エッジ推論プラットフォームが高スループットと低レイテンシの両方を同時に持つことが重要である。
複数のDNNモデルを持つエッジプラットフォームは、スケジューラ設計に新たな課題をもたらす。
まず、各要求はサービス品質(QoS)を改善するために異なるサービスレベル目標(SLO)を持つことができる。
第2に、エッジプラットフォームは、システム利用を改善するために、複数の異種dnnモデルを効率的にスケジュールできるべきです。
本稿では,この2つの目標を達成するために,エッジプラットフォーム上での適応的バッチ処理とDNN推論サービスの同時実行を実現する,新たな学習ベースのスケジューリングフレームワークであるBCEdgeを提案する。
スループットとレイテンシのトレードオフを評価するためのユーティリティ関数を定義する。
BCEdgeのスケジューラは最大エントロピーに基づく深部強化学習(DRL)を活用して実用性を最大化する
1) バッチサイズと共同最適化
2) 並列モデルの数を自動で数える。
異なるエッジプラットフォームに実装したプロトタイプでは,sloを満足しながら,bcedgeの実用性が平均37.6%向上していることが分かった。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Edge AI as a Service with Coordinated Deep Neural Networks [0.24578723416255746]
CoDEは、個々のモデルからマルチタスクのDNNを作成することで、最高の報酬が得られるパスである最適なパスを見つけることを目的としている。
実験により,CoDEは推論スループットを向上し,最先端の既存手法に比べて高精度であることがわかった。
論文 参考訳(メタデータ) (2024-01-01T01:54:53Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - A hybrid deep-learning-metaheuristic framework for bi-level network
design problems [2.741266294612776]
本研究では,道路ネットワーク設計問題(NDP)のための双方向アーキテクチャを用いたハイブリッドディープラーニング・メタヒューリスティックフレームワークを提案する。
我々は、ユーザ均衡(UE)トラフィック割り当て問題の解を近似するために、グラフニューラルネットワーク(GNN)を訓練する。
遺伝的アルゴリズム(GA)の適合度関数評価の計算にトレーニングモデルを用いて,NDPの解を近似する。
論文 参考訳(メタデータ) (2023-03-10T16:23:56Z) - Scheduling Inference Workloads on Distributed Edge Clusters with
Reinforcement Learning [11.007816552466952]
本稿では,エッジネットワークにおける予測クエリを短時間でスケジューリングする問題に焦点をあてる。
シミュレーションにより,大規模ISPの現実的なネットワーク設定とワークロードにおけるいくつかのポリシーを解析する。
我々は、強化学習に基づくスケジューリングアルゴリズムASETを設計し、システム条件に応じてその決定を適応させることができる。
論文 参考訳(メタデータ) (2023-01-31T13:23:34Z) - Edge-MultiAI: Multi-Tenancy of Latency-Sensitive Deep Learning
Applications on Edge [10.067877168224337]
本研究は,ディープラーニングアプリケーションのレイテンシ制約を満たすため,メモリ競合を克服することを目的としている。
We propose a efficient NN model management framework called Edge-MultiAI, which uses the NN model of the DL application into the edge memory。
We show that Edge-MultiAI can encourage the degree of multi-tenancy on the edge by least 2X and the number of warm-starts by around 60% by any significant loss on the inference accuracy of the application。
論文 参考訳(メタデータ) (2022-11-14T06:17:32Z) - GNN at the Edge: Cost-Efficient Graph Neural Network Processing over
Distributed Edge Servers [24.109721494781592]
グラフニューラルネットワーク(GNN)はまだ探索中であり、その広範な採用に対する大きな違いを示している。
本稿では,多層ヘテロジニアスエッジネットワーク上での分散GNN処理のコスト最適化について検討する。
提案手法は, 高速収束速度で95.8%以上のコスト削減を行い, デファクトベースラインよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-10-31T13:03:16Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - Receptive Field-based Segmentation for Distributed CNN Inference
Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文 参考訳(メタデータ) (2022-07-22T18:38:11Z) - BLK-REW: A Unified Block-based DNN Pruning Framework using Reweighted
Regularization Method [69.49386965992464]
本稿では, 汎用的かつ柔軟な構造化プルーニング次元と, 強力かつ効率的な再加重正規化手法を組み合わせたブロック型プルーニングフレームワークを提案する。
我々のフレームワークは普遍的であり、CNNとRNNの両方に適用できる。
リアルタイムモバイルアクセラレーションと精度の妥協のないCNNとRNNの共通カバレッジを実現するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-01-23T03:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。