Fugu-MT 論文翻訳(概要): Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse Multi-DNN Workloads

論文の概要: Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse Multi-DNN Workloads

arxiv url: http://arxiv.org/abs/2310.11096v1
Date: Tue, 17 Oct 2023 09:25:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 16:54:15.832986
Title: Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse Multi-DNN Workloads
Title（参考訳）: スパースDySta:スパースマルチDNNワークロードのためのスポーサリティ対応動的および静的スケジューリング
Authors: Hongxiang Fan, Stylianos I. Venieris, Alexandros Kouris, Nicholas D. Lane
Abstract要約: 複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
参考スコア（独自算出の注目度）: 65.47816359465155
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Running multiple deep neural networks (DNNs) in parallel has become an emerging workload in both edge devices, such as mobile phones where multiple tasks serve a single user for daily activities, and data centers, where various requests are raised from millions of users, as seen with large language models. To reduce the costly computational and memory requirements of these workloads, various efficient sparsification approaches have been introduced, resulting in widespread sparsity across different types of DNN models. In this context, there is an emerging need for scheduling sparse multi-DNN workloads, a problem that is largely unexplored in previous literature. This paper systematically analyses the use-cases of multiple sparse DNNs and investigates the opportunities for optimizations. Based on these findings, we propose Dysta, a novel bi-level dynamic and static scheduler that utilizes both static sparsity patterns and dynamic sparsity information for the sparse multi-DNN scheduling. Both static and dynamic components of Dysta are jointly designed at the software and hardware levels, respectively, to improve and refine the scheduling approach. To facilitate future progress in the study of this class of workloads, we construct a public benchmark that contains sparse multi-DNN workloads across different deployment scenarios, spanning from mobile phones and AR/VR wearables to data centers. A comprehensive evaluation on the sparse multi-DNN benchmark demonstrates that our proposed approach outperforms the state-of-the-art methods with up to 10% decrease in latency constraint violation rate and nearly 4X reduction in average normalized turnaround time. Our artifacts and code are publicly available at: https://github.com/SamsungLabs/Sparse-Multi-DNN-Scheduling.
Abstract（参考訳）: 複数のディープニューラルネットワーク(DNN)を並列に実行することは、例えば、日々のアクティビティのために複数のタスクが単一ユーザに提供する携帯電話や、大規模言語モデルで見られるように、数百万のユーザからさまざまな要求が寄せられるデータセンタといった、エッジデバイスの両方において、新たなワークロードとなっている。これらのワークロードのコストのかかる計算とメモリの要求を減らすために、様々な効率的なスペーシフィケーションアプローチが導入され、様々なタイプのDNNモデルにまたがって広範なスペーシリティをもたらす。この文脈では、スパースなマルチDNNワークロードをスケジューリングする必要性が高まっている。本稿では,複数のスパースDNNのユースケースを体系的に分析し,最適化の機会について検討する。これらの結果に基づき、スパースマルチDNNスケジューリングに静的なスケジューラと動的スケジューラ情報の両方を利用する新しいバイレベル動的および静的スケジューラDystaを提案する。 dystaの静的コンポーネントと動的コンポーネントは共にソフトウェアとハードウェアレベルで設計されており、スケジューリングアプローチの改善と洗練が図られている。このタイプのワークロードの研究の今後の進展を促進するために,携帯電話やar/vrウェアラブルからデータセンタに至るまで,さまざまなデプロイシナリオにまたがる分散マルチdnnワークロードを含む公開ベンチマークを構築した。スパースマルチDNNベンチマークの総合評価により,提案手法は遅延制約違反率を最大10%削減し,平均正規化ターンアラウンド時間で約4倍に向上することを示した。私たちのアーティファクトとコードは、https://github.com/SamsungLabs/Sparse-Multi-DNN-Schedulingで公開されています。

関連論文リスト

SoD$^2$: Statically Optimizing Dynamic Deep Neural Network [13.958672527377722]
SoD$2$はDynamic DNNを最適化するための包括的なフレームワークである。このフレームワークは、既知の定数、シンボリック定数、あるいはそれらの上の操作として演算子の形状を静的に決定する。 SoD$2$は、これらのシステムよりも3.9Times$高速に動作し、最大88%のピークメモリ消費を節約できることを示す。
論文参考訳（メタデータ） (2024-02-29T23:04:01Z)
Context-aware Multi-Model Object Detection for Diversely Heterogeneous Compute Systems [0.32634122554914]
ディープニューラルネットワーク(DNN)を用いた物体検出への1サイズ全アプローチは、計算資源の非効率な利用につながる。本稿では,動的に変化する文脈情報や計算制約に応じて,様々なDNNベースのODモデルから連続的に選択するShiftを提案する。提案手法は、最先端のGPUベースの単一モデルODアプローチと比較して、エネルギー使用率7.5倍、レイテンシ2.8倍の改善をもたらす。
論文参考訳（メタデータ） (2024-02-12T05:38:11Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
DOMINO: Domain-invariant Hyperdimensional Classification for Multi-Sensor Time Series Data [14.434647668734184]
ノイズの多いマルチセンサ時系列データにおける分散シフト問題に対処する新しいHDC学習フレームワークであるDOMINOを提案する。 DOMINOは最先端(SOTA)DNNベースのドメイン一般化技術よりも平均2.04%高い精度で達成し、16.34倍高速なトレーニングと2.89倍高速な推論を提供する。
論文参考訳（メタデータ） (2023-08-07T04:44:12Z)
Combining Multi-Objective Bayesian Optimization with Reinforcement Learning for TinyML [4.2019872499238256]
マルチオブジェクトベイズ最適化(MOBOpt)に基づくマイクロコントローラ(TinyML)にディープニューラルネットワークをデプロイするための新しい戦略を提案する。本手法は,DNNの予測精度,メモリ消費量,計算複雑性のトレードオフを効率的に検出することを目的としている。
論文参考訳（メタデータ） (2023-05-23T14:31:52Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文参考訳（メタデータ） (2022-09-27T15:04:01Z)
A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文参考訳（メタデータ） (2022-08-24T15:02:11Z)
Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文参考訳（メタデータ） (2022-05-23T12:35:18Z)
Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文参考訳（メタデータ） (2021-11-26T18:44:59Z)
Dynamic Sparsity Neural Networks for Automatic Speech Recognition [44.352231175123215]
動的スパシティニューラルネットワーク(DSNN)は、トレーニングが完了すれば、実行時に任意の定義済みのスパシティ設定に即時に切り替えることができる。したがって、トレーニングされたDSNNモデルは、トレーニングプロセスを大幅に緩和し、リソース制約のある多様なシナリオでのデプロイを簡素化できます。
論文参考訳（メタデータ） (2020-05-16T22:08:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。