論文の概要: MoCA: Memory-Centric, Adaptive Execution for Multi-Tenant Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2305.05843v1
- Date: Wed, 10 May 2023 02:24:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 14:46:30.295784
- Title: MoCA: Memory-Centric, Adaptive Execution for Multi-Tenant Deep Neural
Networks
- Title(参考訳): moca: マルチテナント深層ニューラルネットワークのためのメモリ中心で適応的な実行
- Authors: Seah Kim, Hasan Genc, Vadim Vadimovich Nikiforov, Krste Asanovi\'c,
Borivoje Nikoli\'c, Yakun Sophia Shao
- Abstract要約: MoCAはディープニューラルネットワーク(DNN)アクセラレーターのための適応型マルチテナンシシステムである。
ターゲットを満たすために、共同配置されたアプリケーションの共有メモリリソースを動的に管理する。
我々は,サービスレベル合意(SLA)の満足度を3.9倍(平均1.8倍)、システムスループットを2.3倍(平均1.7倍)、公正度を1.3倍(平均1.2倍)に向上させることを実証した。
- 参考スコア(独自算出の注目度): 3.8537852783718627
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Driven by the wide adoption of deep neural networks (DNNs) across different
application domains, multi-tenancy execution, where multiple DNNs are deployed
simultaneously on the same hardware, has been proposed to satisfy the latency
requirements of different applications while improving the overall system
utilization. However, multi-tenancy execution could lead to undesired
system-level resource contention, causing quality-of-service (QoS) degradation
for latency-critical applications. To address this challenge, we propose MoCA,
an adaptive multi-tenancy system for DNN accelerators. Unlike existing
solutions that focus on compute resource partition, MoCA dynamically manages
shared memory resources of co-located applications to meet their QoS targets.
Specifically, MoCA leverages the regularities in both DNN operators and
accelerators to dynamically modulate memory access rates based on their latency
targets and user-defined priorities so that co-located applications get the
resources they demand without significantly starving their co-runners. We
demonstrate that MoCA improves the satisfaction rate of the service level
agreement (SLA) up to 3.9x (1.8x average), system throughput by 2.3x (1.7x
average), and fairness by 1.3x (1.2x average), compared to prior work.
- Abstract(参考訳): 異なるアプリケーションドメインにわたるディープニューラルネットワーク(dnn)の広範な採用により、複数のdnnが同じハードウェア上に同時にデプロイされるマルチテナント実行が提案され、システム全体の利用性を改善しながら、異なるアプリケーションのレイテンシ要件を満たす。
しかし、マルチテナンシの実行は望ましくないシステムレベルのリソース競合を引き起こし、レイテンシクリティカルなアプリケーションのqos(quality-of-service)低下を引き起こす可能性がある。
そこで本研究では,DNNアクセラレータのための適応型マルチテナンシシステムであるMoCAを提案する。
計算リソースのパーティションにフォーカスする既存のソリューションとは異なり、MoCAはQoSターゲットを満たすために、共同配置されたアプリケーションの共有メモリリソースを動的に管理する。
具体的には、mocaはdnnオペレータとアクセラレータの両方の正規性を利用して、レイテンシのターゲットとユーザ定義の優先度に基づいて、メモリアクセス率を動的に調整する。
我々は,サービスレベル合意(SLA)の満足度を3.9倍(平均1.8倍)、システムスループットを2.3倍(平均1.7倍)、公正度を1.3倍(平均1.2倍)に改善することを示した。
関連論文リスト
- Resource-Efficient Sensor Fusion via System-Wide Dynamic Gated Neural Networks [16.0018681576301]
我々はQuantile-Constrained Inference (QIC)と呼ばれる新しいアルゴリズム戦略を提案する。
QICは、上記のシステムのすべての側面について、共同で高品質で迅速な決定を行います。
結果,QICは最適値と一致し,選択肢を80%以上上回っていることを確認した。
論文 参考訳(メタデータ) (2024-10-22T06:12:04Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - DNN Partitioning, Task Offloading, and Resource Allocation in Dynamic Vehicular Networks: A Lyapunov-Guided Diffusion-Based Reinforcement Learning Approach [49.56404236394601]
本稿では,Vehicular Edge Computingにおける共同DNNパーティショニング,タスクオフロード,リソース割り当ての問題を定式化する。
我々の目標は、時間とともにシステムの安定性を保証しながら、DNNベースのタスク完了時間を最小化することである。
拡散モデルの革新的利用を取り入れたマルチエージェント拡散に基づく深層強化学習(MAD2RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T06:31:03Z) - Deep Reinforcement Learning based Online Scheduling Policy for Deep Neural Network Multi-Tenant Multi-Accelerator Systems [1.7724466261976437]
本稿では,マルチテナント環境におけるDNNのオンラインスケジューリングを目的とした低オーバーヘッド深層強化学習アルゴリズムRELMASを提案する。
ヘテロジニアス多加速器システムへのRELMASの適用により、SLAの満足度は最大で173%向上した。
論文 参考訳(メタデータ) (2024-04-13T10:13:07Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Shared Memory-contention-aware Concurrent DNN Execution for Diversely
Heterogeneous System-on-Chips [0.32634122554914]
HaX-CoNNは、推論ワークロードの同時実行においてレイヤを特徴付け、マップする新しいスキームである。
NVIDIA Orin,NVIDIA Xavier,Qualcomm Snapdragon 865 SOC上でHaX-CoNNを評価した。
論文 参考訳(メタデータ) (2023-08-10T22:47:40Z) - Adaptive DNN Surgery for Selfish Inference Acceleration with On-demand
Edge Resource [25.274288063300844]
ディープニューラルネットワーク(DNN)は、モバイルデバイス上のインテリジェントアプリケーションの精度を大幅に改善した。
DNN手術は、モバイルデバイスの計算能力に制限があるにもかかわらず、リアルタイムの推論を可能にする。
本稿では,分散DNN手術(Decentralized DNN Surgery, DDS)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2023-06-21T11:32:28Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - Deep Learning-based Resource Allocation For Device-to-Device
Communication [66.74874646973593]
デバイス間通信(D2D)を用いたマルチチャネルセルシステムにおいて,リソース割り当ての最適化のためのフレームワークを提案する。
任意のチャネル条件に対する最適な資源配分戦略をディープニューラルネットワーク(DNN)モデルにより近似する深層学習(DL)フレームワークを提案する。
シミュレーションの結果,提案手法のリアルタイム性能を低速で実現できることが確認された。
論文 参考訳(メタデータ) (2020-11-25T14:19:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。