論文の概要: OmniBoost: Boosting Throughput of Heterogeneous Embedded Devices under
Multi-DNN Workload
- arxiv url: http://arxiv.org/abs/2307.03290v1
- Date: Thu, 6 Jul 2023 21:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 14:08:45.265918
- Title: OmniBoost: Boosting Throughput of Heterogeneous Embedded Devices under
Multi-DNN Workload
- Title(参考訳): omniboost:マルチdnn負荷下における異種組み込みデバイスのスループット向上
- Authors: Andreas Karatzas and Iraklis Anagnostopoulos
- Abstract要約: 現代のディープニューラルネットワーク(DNN)は、高い効率性と正確性を示している。
現在の組み込みシステムはアーキテクチャ上の不均一性を示しており、現在のランタイムコントローラでは十分に利用できない。
異種組み込みデバイスのための軽量マルチDNNマネージャであるOmniBoostを提案する。
- 参考スコア(独自算出の注目度): 0.456877715768796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Deep Neural Networks (DNNs) exhibit profound efficiency and accuracy
properties. This has introduced application workloads that comprise of multiple
DNN applications, raising new challenges regarding workload distribution.
Equipped with a diverse set of accelerators, newer embedded system present
architectural heterogeneity, which current run-time controllers are unable to
fully utilize. To enable high throughput in multi-DNN workloads, such a
controller is ought to explore hundreds of thousands of possible solutions to
exploit the underlying heterogeneity. In this paper, we propose OmniBoost, a
lightweight and extensible multi-DNN manager for heterogeneous embedded
devices. We leverage stochastic space exploration and we combine it with a
highly accurate performance estimator to observe a x4.6 average throughput
boost compared to other state-of-the-art methods. The evaluation was performed
on the HiKey970 development board.
- Abstract(参考訳): 現代のディープニューラルネットワーク(DNN)は、高い効率性と精度を示す。
これにより、複数のDNNアプリケーションで構成されるアプリケーションワークロードが導入され、ワークロードの分散に関する新たな課題が提起された。
多様なアクセラレーターを備えた新しい組込みシステムは、現在のランタイムコントローラが完全に利用できないアーキテクチャ上の不均一性を示す。
マルチDNNワークロードで高いスループットを実現するために、このようなコントローラは、基礎となる不均一性を活用するために、数十万の可能なソリューションを探索する必要がある。
本稿では,異種組み込みデバイスのための軽量かつ拡張可能なマルチDNNマネージャであるOmniBoostを提案する。
我々は確率空間探索を活用し、それを高精度な性能推定器と組み合わせて、他の最先端手法と比較してx4.6平均スループット向上を観測する。
評価はHiKey970開発ボードで行われた。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Optimizing DNN Inference on Multi-Accelerator SoCs at Training-time [5.05866540830123]
我々は,様々なチップのCUの中から,ディープニューラルネットワーク(DNN)の細粒度マッピングを効率的に探索するハードウェア認識ツールであるODiMOを提案する。
ODiMOはDarkside上で実行されるDNNの遅延を、手動のマッピングに比べて最大8倍の精度で削減することを示す。
エネルギーを目標とする場合、ODiMOはより効率的なマッピングを最大50.8倍に生成し、精度は最小限に抑えた。
論文 参考訳(メタデータ) (2024-09-27T09:10:44Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - YONO: Modeling Multiple Heterogeneous Neural Networks on
Microcontrollers [10.420617367363047]
YONOは製品量子化(PQ)ベースのアプローチで、複数の異種モデルを圧縮し、インメモリモデルの実行と切り替えを可能にする。
YONOは、複数の異種モデルを無視できるか、または12.37$times$まで精度を損なわないで圧縮できるので、優れた性能を示している。
論文 参考訳(メタデータ) (2022-03-08T01:24:36Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Positive/Negative Approximate Multipliers for DNN Accelerators [3.1921317895626493]
本稿では,重みを近似乗算器の適切なモードにマッピングするフィルタ指向近似法を提案する。
提案手法では,4つの異なるデータセット上で平均7つのNNで18.33%のエネルギーゲインを達成し,最大精度の低下は1%に留まった。
論文 参考訳(メタデータ) (2021-07-20T09:36:24Z) - Efficient Algorithms for Device Placement of DNN Graph Operators [12.871398348743591]
現代の機械学習ワークロードは、実行に非常にコストがかかる複雑な構造を持つ大規模なモデルを使用する。
複雑なモデルを実行するデバイスは、CPUに加えて、ハードウェアアクセラレータとして提供されるドメイン固有のアクセラレータが盛んになるにつれて、ますます異質になりつつある。
近年の研究では、モデルの並列性、すなわちニューラルネットワークの計算グラフを複数のデバイスに分割することで、大きな利益が得られることが示されている。
本稿では,DNN演算子のデバイス配置のコアとなる構造的最適化問題を,特に現代のパイプライン環境において,推論とトレーニングの両方のために同定し,分離する。
論文 参考訳(メタデータ) (2020-06-29T22:45:01Z) - Self-Organized Operational Neural Networks with Generative Neurons [87.32169414230822]
ONNは、任意の非線型作用素をカプセル化できる一般化されたニューロンモデルを持つ異種ネットワークである。
我々は,各接続の結節演算子を適応(最適化)できる生成ニューロンを有する自己組織型ONN(Self-ONNs)を提案する。
論文 参考訳(メタデータ) (2020-04-24T14:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。