論文の概要: Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs
- arxiv url: http://arxiv.org/abs/2209.13443v2
- Date: Fri, 4 Aug 2023 21:29:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 00:49:09.270038
- Title: Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs
- Title(参考訳): 流体バッチ:エッジNPU上での早期実行ニューラルネットワークの事前実行
- Authors: Alexandros Kouris, Stylianos I. Venieris, Stefanos Laskaridis,
Nicholas D. Lane
- Abstract要約: スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
- 参考スコア(独自算出の注目度): 74.83613252825754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With deep neural networks (DNNs) emerging as the backbone in a multitude of
computer vision tasks, their adoption in real-world applications broadens
continuously. Given the abundance and omnipresence of smart devices in the
consumer landscape, "smart ecosystems'' are being formed where sensing happens
concurrently rather than standalone. This is shifting the on-device inference
paradigm towards deploying centralised neural processing units (NPUs) at the
edge, where multiple devices (e.g. in smart homes or autonomous vehicles) can
stream their data for processing with dynamic rates. While this provides
enhanced potential for input batching, naive solutions can lead to subpar
performance and quality of experience, especially under spiking loads. At the
same time, the deployment of dynamic DNNs, comprising stochastic computation
graphs (e.g. early-exit (EE) models), introduces a new dimension of dynamic
behaviour in such systems. In this work, we propose a novel early-exit-aware
scheduling algorithm that allows sample preemption at run time, to account for
the dynamicity introduced both by the arrival and early-exiting processes. At
the same time, we introduce two novel dimensions to the design space of the NPU
hardware architecture, namely Fluid Batching and Stackable Processing Elements,
that enable run-time adaptability to different batch sizes and significantly
improve the NPU utilisation even at small batches. Our evaluation shows that
the proposed system achieves an average 1.97x and 6.7x improvement over
state-of-the-art DNN streaming systems in terms of average latency and tail
latency service-level objective (SLO) satisfaction, respectively.
- Abstract(参考訳): コンピュータビジョンタスクのバックボーンとしてディープニューラルネットワーク(DNN)が登場し、現実のアプリケーションへの採用が継続的に広まっています。
消費者の世界におけるスマートデバイスの存在と全能性を考えると、"スマートエコシステム"は、センシングがスタンドアロンではなく同時に行われるように形成されている。
これはデバイス上の推論パラダイムを、複数のデバイス(スマートホームや自動運転車など)が動的レートで処理するためにデータをストリームできる、エッジに集中型ニューラル処理ユニット(NPU)をデプロイすることに移行するものだ。
これにより、入力バッチのポテンシャルが向上する一方で、ナイーブなソリューションは、特にスピーキング負荷下で、パフォーマンスと経験の質を損なう可能性がある。
同時に、確率計算グラフ(例えばアーリーエグジット(EE)モデル)を含む動的DNNの展開は、そのようなシステムにおける動的挙動の新しい次元を導入している。
本研究では,実行時のサンプルプリエンプションを可能とし,到着過程と早期脱出過程の両方によって引き起こされる動的性を考慮し,新たな初期出力スケジューリングアルゴリズムを提案する。
同時に, npuハードウェアアーキテクチャの設計領域に, 異なるバッチサイズに対する実行時の適応性を実現し, 小さいバッチでもnpu利用性を大幅に向上させる, 流体バッチとスタック可能な処理要素という, 2つの新たな次元を導入する。
評価の結果,提案システムは,平均レイテンシとテール遅延サービスレベル満足度の観点から,最先端DNNストリーミングシステムよりも平均1.97倍,平均6.7倍向上していることがわかった。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - EvSegSNN: Neuromorphic Semantic Segmentation for Event Data [0.6138671548064356]
EvSegSNN は、Parametric Leaky Integrate と Fire のニューロンに依存した、生物学的に検証可能なエンコーダ-デコーダU字型アーキテクチャである。
本稿では,スパイキングニューラルネットワークとイベントカメラを組み合わせることによって,エンド・ツー・エンドのバイオインスパイアされたセマンティックセマンティックセマンティクス手法を提案する。
DDD17で実施された実験は、EvSegSNNがMIoUの観点から最も近い最先端モデルを上回っていることを示している。
論文 参考訳(メタデータ) (2024-06-20T10:36:24Z) - Adaptive Robotic Arm Control with a Spiking Recurrent Neural Network on a Digital Accelerator [41.60361484397962]
本稿では,システムの概要と,Pynq ZUプラットフォーム上で使用するPythonフレームワークについて述べる。
シミュレーションされた精度は,毎秒380万イベントのピーク性能で維持されていることを示す。
論文 参考訳(メタデータ) (2024-05-21T14:59:39Z) - DYNAP-SE2: a scalable multi-core dynamic neuromorphic asynchronous
spiking neural network processor [2.9175555050594975]
我々は、リアルタイムイベントベーススパイキングニューラルネットワーク(SNN)をプロトタイピングするための、脳にインスパイアされたプラットフォームを提案する。
提案システムは, 短期可塑性, NMDA ゲーティング, AMPA拡散, ホメオスタシス, スパイク周波数適応, コンダクタンス系デンドライトコンパートメント, スパイク伝達遅延などの動的および現実的なニューラル処理現象の直接エミュレーションを支援する。
異なる生物学的に可塑性のニューラルネットワークをエミュレートする柔軟性と、個体群と単一ニューロンの信号の両方をリアルタイムで監視する能力により、基礎研究とエッジコンピューティングの両方への応用のための複雑なニューラルネットワークモデルの開発と検証が可能になる。
論文 参考訳(メタデータ) (2023-10-01T03:48:16Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - HAPI: Hardware-Aware Progressive Inference [18.214367595727037]
畳み込みニューラルネットワーク(CNN)は最近、AIタスクの多様性における最先端技術となっている。
その人気にもかかわらず、CNN推論は依然として高い計算コストがかかる。
本研究は,ハイパフォーマンス・アーリーエグジット・ネットワークを創出するための新しい手法であるHAPIを提案する。
論文 参考訳(メタデータ) (2020-08-10T09:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。