論文の概要: Miriam: Exploiting Elastic Kernels for Real-time Multi-DNN Inference on
Edge GPU
- arxiv url: http://arxiv.org/abs/2307.04339v1
- Date: Mon, 10 Jul 2023 04:30:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 14:09:25.314928
- Title: Miriam: Exploiting Elastic Kernels for Real-time Multi-DNN Inference on
Edge GPU
- Title(参考訳): Miriam: Edge GPU上のリアルタイムマルチDNN推論のためのElastic Kernelのエクスプロイト
- Authors: Zhihe Zhao, Neiwen Ling, Nan Guan, Guoliang Xing
- Abstract要約: マルチディープニューラルネットワーク(DNN)の同時実行
MiriamはエッジGPU上のマルチDNN推論のための競合認識タスクコーディネートフレームワークである。
- 参考スコア(独自算出の注目度): 7.972518585452826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many applications such as autonomous driving and augmented reality, require
the concurrent running of multiple deep neural networks (DNN) that poses
different levels of real-time performance requirements. However, coordinating
multiple DNN tasks with varying levels of criticality on edge GPUs remains an
area of limited study. Unlike server-level GPUs, edge GPUs are resource-limited
and lack hardware-level resource management mechanisms for avoiding resource
contention. Therefore, we propose Miriam, a contention-aware task coordination
framework for multi-DNN inference on edge GPU. Miriam consolidates two main
components, an elastic-kernel generator, and a runtime dynamic kernel
coordinator, to support mixed critical DNN inference. To evaluate Miriam, we
build a new DNN inference benchmark based on CUDA with diverse representative
DNN workloads. Experiments on two edge GPU platforms show that Miriam can
increase system throughput by 92% while only incurring less than 10\% latency
overhead for critical tasks, compared to state of art baselines.
- Abstract(参考訳): 自律運転や拡張現実といった多くのアプリケーションは、リアルタイムのパフォーマンス要求のレベルが異なる複数のディープニューラルネットワーク(DNN)を同時に実行する必要がある。
しかし、エッジGPUの臨界レベルが異なる複数のDNNタスクをコーディネートすることは、まだ限られた研究領域である。
サーバレベルのGPUとは異なり、エッジGPUはリソース制限があり、リソース競合を避けるためのハードウェアレベルのリソース管理機構が欠如している。
そこで我々は,エッジGPU上でのマルチDNN推論のための競合認識タスクコーディネートフレームワークであるMiriamを提案する。
Miriamは2つの主要コンポーネント、弾性カーネルジェネレータと実行時動的カーネルコーディネータを統合し、混合臨界DNN推論をサポートする。
Miriamを評価するために,CUDAに基づく新しいDNN推論ベンチマークを構築した。
2つのエッジgpuプラットフォームでの実験では、miriamはシステムスループットを92%向上できるが、クリティカルタスクのレイテンシオーバーヘッドは、最先端のベースラインと比較して10\%未満に抑えられている。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - MTL-Split: Multi-Task Learning for Edge Devices using Split Computing [11.357748232689628]
Split Computing(SC)は、Deep Neural Network(DNN)が、エッジデバイスにデプロイされた部分と、リモートサーバにデプロイされた部分でインテリジェントに分割される場所である。
本稿では,この問題を考察し,提案したアーキテクチャであるMTL-Splitは,合成データと実世界のデータの両方について,奨励的な結果を示す。
論文 参考訳(メタデータ) (2024-07-08T14:25:39Z) - SGPRS: Seamless GPU Partitioning Real-Time Scheduler for Periodic Deep Learning Workloads [0.9898607871253774]
構成分割スイッチのゼロを考慮した最初のリアルタイムGPUスケジューラであるSGPRSを提案する。
提案するスケジューラは、並列タスクの期限を多く満たすだけでなく、ピボットポイントを越えた全体的なパフォーマンスも維持する。
論文 参考訳(メタデータ) (2024-04-13T18:29:26Z) - Dynamic DNNs and Runtime Management for Efficient Inference on
Mobile/Embedded Devices [2.8851756275902476]
ディープニューラルネットワーク(DNN)推論は、モバイルおよび組み込みプラットフォームでますます実行されています。
システムレベルの性能とエネルギー効率を最大化する新しいDynamic Super-Networksを共同で設計した。
SOTAと比較すると、Jetson Xavier NXのGPU上でのImageNetを用いた実験結果は、類似のImageNet Top-1精度で2.4倍、類似のレイテンシで5.1%高速であることを示している。
論文 参考訳(メタデータ) (2024-01-17T04:40:30Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - An efficient and flexible inference system for serving heterogeneous
ensembles of deep neural networks [0.0]
ディープニューラルネットワーク(DNN)のアンサンブルは定性的予測を達成しているが、それらは計算とメモリ集約である。
DNNの柔軟性と効率性を両立させる新しいソフトウェア層を提案する。
論文 参考訳(メタデータ) (2022-08-30T08:05:43Z) - Towards a General Purpose CNN for Long Range Dependencies in
$\mathrm{N}$D [49.57261544331683]
構造変化のない任意の解像度,次元,長さのタスクに対して,連続的な畳み込みカーネルを備えた単一CNNアーキテクチャを提案する。
1$mathrmD$)とビジュアルデータ(2$mathrmD$)の幅広いタスクに同じCCNNを適用することで、我々のアプローチの汎用性を示す。
私たちのCCNNは競争力があり、検討されたすべてのタスクで現在の最先端を上回ります。
論文 参考訳(メタデータ) (2022-06-07T15:48:02Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - Synergy: Resource Sensitive DNN Scheduling in Multi-Tenant Clusters [10.38396444951436]
深層ニューラルネットワーク(DNN)のトレーニングは、企業とクラウドデータセンターの両方で広く使われているワークロードである。
共有GPUクラスタのためのリソースセンシティブなスケジューラであるSynergyを提案する。
実験の結果,従来のGPUに比例したスケジューリングに比べて,負荷対応のCPUとメモリアロケーションは平均JCTを3.4倍改善できることがわかった。
論文 参考訳(メタデータ) (2021-10-12T15:25:54Z) - Hybrid Models for Learning to Branch [81.93868699246214]
我々はCPUマシン上で効率的な分岐を行うための新しいハイブリッドアーキテクチャを提案する。
提案アーキテクチャは,GNNの表現力と分岐処理のための計算コストの低い多層パーセプトロン(MLP)を組み合わせる。
論文 参考訳(メタデータ) (2020-06-26T21:03:45Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。