論文の概要: MoCA: Memory-Centric, Adaptive Execution for Multi-Tenant Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2305.05843v1
- Date: Wed, 10 May 2023 02:24:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 14:46:30.295784
- Title: MoCA: Memory-Centric, Adaptive Execution for Multi-Tenant Deep Neural
Networks
- Title(参考訳): moca: マルチテナント深層ニューラルネットワークのためのメモリ中心で適応的な実行
- Authors: Seah Kim, Hasan Genc, Vadim Vadimovich Nikiforov, Krste Asanovi\'c,
Borivoje Nikoli\'c, Yakun Sophia Shao
- Abstract要約: MoCAはディープニューラルネットワーク(DNN)アクセラレーターのための適応型マルチテナンシシステムである。
ターゲットを満たすために、共同配置されたアプリケーションの共有メモリリソースを動的に管理する。
我々は,サービスレベル合意(SLA)の満足度を3.9倍(平均1.8倍)、システムスループットを2.3倍(平均1.7倍)、公正度を1.3倍(平均1.2倍)に向上させることを実証した。
- 参考スコア(独自算出の注目度): 3.8537852783718627
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Driven by the wide adoption of deep neural networks (DNNs) across different
application domains, multi-tenancy execution, where multiple DNNs are deployed
simultaneously on the same hardware, has been proposed to satisfy the latency
requirements of different applications while improving the overall system
utilization. However, multi-tenancy execution could lead to undesired
system-level resource contention, causing quality-of-service (QoS) degradation
for latency-critical applications. To address this challenge, we propose MoCA,
an adaptive multi-tenancy system for DNN accelerators. Unlike existing
solutions that focus on compute resource partition, MoCA dynamically manages
shared memory resources of co-located applications to meet their QoS targets.
Specifically, MoCA leverages the regularities in both DNN operators and
accelerators to dynamically modulate memory access rates based on their latency
targets and user-defined priorities so that co-located applications get the
resources they demand without significantly starving their co-runners. We
demonstrate that MoCA improves the satisfaction rate of the service level
agreement (SLA) up to 3.9x (1.8x average), system throughput by 2.3x (1.7x
average), and fairness by 1.3x (1.2x average), compared to prior work.
- Abstract(参考訳): 異なるアプリケーションドメインにわたるディープニューラルネットワーク(dnn)の広範な採用により、複数のdnnが同じハードウェア上に同時にデプロイされるマルチテナント実行が提案され、システム全体の利用性を改善しながら、異なるアプリケーションのレイテンシ要件を満たす。
しかし、マルチテナンシの実行は望ましくないシステムレベルのリソース競合を引き起こし、レイテンシクリティカルなアプリケーションのqos(quality-of-service)低下を引き起こす可能性がある。
そこで本研究では,DNNアクセラレータのための適応型マルチテナンシシステムであるMoCAを提案する。
計算リソースのパーティションにフォーカスする既存のソリューションとは異なり、MoCAはQoSターゲットを満たすために、共同配置されたアプリケーションの共有メモリリソースを動的に管理する。
具体的には、mocaはdnnオペレータとアクセラレータの両方の正規性を利用して、レイテンシのターゲットとユーザ定義の優先度に基づいて、メモリアクセス率を動的に調整する。
我々は,サービスレベル合意(SLA)の満足度を3.9倍(平均1.8倍)、システムスループットを2.3倍(平均1.7倍)、公正度を1.3倍(平均1.2倍)に改善することを示した。
関連論文リスト
- Deep Reinforcement Learning based Online Scheduling Policy for Deep Neural Network Multi-Tenant Multi-Accelerator Systems [1.7724466261976437]
本稿では,マルチテナント環境におけるDNNのオンラインスケジューリングを目的とした低オーバーヘッド深層強化学習アルゴリズムRELMASを提案する。
ヘテロジニアス多加速器システムへのRELMASの適用により、SLAの満足度は最大で173%向上した。
論文 参考訳(メタデータ) (2024-04-13T10:13:07Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Shared Memory-contention-aware Concurrent DNN Execution for Diversely
Heterogeneous System-on-Chips [0.32634122554914]
HaX-CoNNは、推論ワークロードの同時実行においてレイヤを特徴付け、マップする新しいスキームである。
NVIDIA Orin,NVIDIA Xavier,Qualcomm Snapdragon 865 SOC上でHaX-CoNNを評価した。
論文 参考訳(メタデータ) (2023-08-10T22:47:40Z) - Joint Service Caching, Communication and Computing Resource Allocation in Collaborative MEC Systems: A DRL-based Two-timescale Approach [15.16859210403316]
端末の厳格なQuality of Service(QoS)要件を満たすため、Multi Access Edge Computing(MEC)システムに課題が課されている。
エッジサーバ間のリソース共有を容易にする協調的なフレームワークを提案する。
提案アルゴリズムは,平均スイッチングおよびキャッシュコストにおいて,ベースラインアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-19T00:27:49Z) - Adaptive DNN Surgery for Selfish Inference Acceleration with On-demand
Edge Resource [25.274288063300844]
ディープニューラルネットワーク(DNN)は、モバイルデバイス上のインテリジェントアプリケーションの精度を大幅に改善した。
DNN手術は、モバイルデバイスの計算能力に制限があるにもかかわらず、リアルタイムの推論を可能にする。
本稿では,分散DNN手術(Decentralized DNN Surgery, DDS)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2023-06-21T11:32:28Z) - DynaMIX: Resource Optimization for DNN-Based Real-Time Applications on a
Multi-Tasking System [20.882393722208608]
より多くのディープニューラルネットワーク(DNN)が開発され、自律走行車(AV)に配備されている。
期待と要求の高まりに応えるため、AVは、複数の車載アプリに対して、制限されたオンボードコンピューティングリソースを"最適化"する必要がある。
並列アプリケーションのリソース要件を最適化し,実行精度を最大化するDynamixを提案する。
論文 参考訳(メタデータ) (2023-02-03T06:33:28Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - Deep Learning-based Resource Allocation For Device-to-Device
Communication [66.74874646973593]
デバイス間通信(D2D)を用いたマルチチャネルセルシステムにおいて,リソース割り当ての最適化のためのフレームワークを提案する。
任意のチャネル条件に対する最適な資源配分戦略をディープニューラルネットワーク(DNN)モデルにより近似する深層学習(DL)フレームワークを提案する。
シミュレーションの結果,提案手法のリアルタイム性能を低速で実現できることが確認された。
論文 参考訳(メタデータ) (2020-11-25T14:19:23Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。