論文の概要: Shared Memory-contention-aware Concurrent DNN Execution for Diversely
Heterogeneous System-on-Chips
- arxiv url: http://arxiv.org/abs/2308.05869v2
- Date: Wed, 7 Feb 2024 01:50:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 20:11:39.562217
- Title: Shared Memory-contention-aware Concurrent DNN Execution for Diversely
Heterogeneous System-on-Chips
- Title(参考訳): 異種システムオンチップにおける共有メモリ保持型コンカレントDNN実行
- Authors: Ismet Dagli, Mehmet Belviranli
- Abstract要約: HaX-CoNNは、推論ワークロードの同時実行においてレイヤを特徴付け、マップする新しいスキームである。
NVIDIA Orin,NVIDIA Xavier,Qualcomm Snapdragon 865 SOC上でHaX-CoNNを評価した。
- 参考スコア(独自算出の注目度): 0.32634122554914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two distinguishing features of state-of-the-art mobile and autonomous systems
are 1) there are often multiple workloads, mainly deep neural network (DNN)
inference, running concurrently and continuously; and 2) they operate on shared
memory system-on-chips (SoC) that embed heterogeneous accelerators tailored for
specific operations. State-of-the-art lacks efficient performance and resource
management techniques necessary to either maximize total system throughput or
minimize end-to-end workload latency. In this work, we propose HaX-CoNN, a
novel scheme that characterizes and maps layers in concurrently executing DNN
inference workloads to a diverse set of accelerators within a SoC. Our scheme
uniquely takes per-layer execution characteristics, shared memory (SM)
contention, and inter-accelerator transitions into account to find optimal
schedules. We evaluate HaX-CoNN on NVIDIA Orin, NVIDIA Xavier, and Qualcomm
Snapdragon 865 SoCs. Our experimental results indicate that HaX-CoNN minimizes
memory contention by up to 45% and can improve latency and total throughput by
up to 32% and 29%, respectively, compared to the state-of-the-art approaches.
- Abstract(参考訳): 最先端のモバイルと自律システムの2つの特徴
1) 主にディープニューラルネットワーク(DNN)推論で、同時かつ継続的に実行される複数のワークロードがある。
2)特定の操作用に調整されたヘテロジニアスアクセラレータを組み込んだ共有メモリシステムオンチップ(soc)で動作する。
システムスループットの最大化やエンドツーエンドのワークロード遅延の最小化に必要な、効率的なパフォーマンスとリソース管理技術が欠如している。
本研究では,DNN推論処理の並列実行において,レイヤを特徴付け,マッピングする新しいスキームであるHaX-CoNNを提案する。
提案方式は, 層間実行特性, 共有メモリ(SM)競合, アクセラレータ間遷移を考慮に入れ, 最適スケジュールを求める。
NVIDIA Orin,NVIDIA Xavier,Qualcomm Snapdragon 865 SoCs上でHaX-CoNNを評価した。
実験結果から,HX-CoNNはメモリ競合を最大45%低減し,最新手法と比較して,レイテンシとスループットを最大32%,スループットを最大29%向上できることがわかった。
関連論文リスト
- Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングでは、スパイクニューラルネットワーク(SNN)が推論タスクを実行し、シーケンシャルデータを含むワークロードの大幅な効率向上を提供する。
ハードウェアとソフトウェアの最近の進歩は、スパイクニューロン間で交換された各スパイクに数ビットのペイロードを埋め込むことにより、推論精度をさらに高めることを示した。
本稿では,マルチレベルSNNを用いた無線ニューロモルフィック分割計算アーキテクチャについて検討する。
論文 参考訳(メタデータ) (2024-11-07T14:08:35Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Optimizing DNN Inference on Multi-Accelerator SoCs at Training-time [5.05866540830123]
我々は,様々なチップのCUの中から,ディープニューラルネットワーク(DNN)の細粒度マッピングを効率的に探索するハードウェア認識ツールであるODiMOを提案する。
ODiMOはDarkside上で実行されるDNNの遅延を、手動のマッピングに比べて最大8倍の精度で削減することを示す。
エネルギーを目標とする場合、ODiMOはより効率的なマッピングを最大50.8倍に生成し、精度は最小限に抑えた。
論文 参考訳(メタデータ) (2024-09-27T09:10:44Z) - Dynamic DNNs and Runtime Management for Efficient Inference on
Mobile/Embedded Devices [2.8851756275902476]
ディープニューラルネットワーク(DNN)推論は、モバイルおよび組み込みプラットフォームでますます実行されています。
システムレベルの性能とエネルギー効率を最大化する新しいDynamic Super-Networksを共同で設計した。
SOTAと比較すると、Jetson Xavier NXのGPU上でのImageNetを用いた実験結果は、類似のImageNet Top-1精度で2.4倍、類似のレイテンシで5.1%高速であることを示している。
論文 参考訳(メタデータ) (2024-01-17T04:40:30Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - An efficient and flexible inference system for serving heterogeneous
ensembles of deep neural networks [0.0]
ディープニューラルネットワーク(DNN)のアンサンブルは定性的予測を達成しているが、それらは計算とメモリ集約である。
DNNの柔軟性と効率性を両立させる新しいソフトウェア層を提案する。
論文 参考訳(メタデータ) (2022-08-30T08:05:43Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - Towards Memory-Efficient Neural Networks via Multi-Level in situ
Generation [10.563649948220371]
ディープニューラルネットワーク(DNN)は、様々なタスクにおいて優れたパフォーマンスを示している。
それらが急速に進化するにつれて、そのエスカレーション計算とメモリ要求により、リソースに制約のあるエッジデバイスへのデプロイが困難になる。
超高速なオンチップ計算で高価なメモリトランザクションを交換するための汎用的で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-25T18:50:24Z) - Deep Learning-based Resource Allocation For Device-to-Device
Communication [66.74874646973593]
デバイス間通信(D2D)を用いたマルチチャネルセルシステムにおいて,リソース割り当ての最適化のためのフレームワークを提案する。
任意のチャネル条件に対する最適な資源配分戦略をディープニューラルネットワーク(DNN)モデルにより近似する深層学習(DL)フレームワークを提案する。
シミュレーションの結果,提案手法のリアルタイム性能を低速で実現できることが確認された。
論文 参考訳(メタデータ) (2020-11-25T14:19:23Z) - TASO: Time and Space Optimization for Memory-Constrained DNN Inference [5.023660118588569]
畳み込みニューラルネットワーク(CNN)は、産業用ロボティクスや自動化システムからモバイルデバイスでの生体認証まで、多くの組み込みアプリケーションで使用されている。
本稿では、畳み込み層を実装するプリミティブ演算を選択するための整数線形計画法(ILP)に基づくCNNモデルの事前ドメイン固有最適化手法を提案する。
論文 参考訳(メタデータ) (2020-05-21T15:08:06Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。