論文の概要: Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs
- arxiv url: http://arxiv.org/abs/2209.13443v1
- Date: Tue, 27 Sep 2022 15:04:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 16:35:23.644931
- Title: Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs
- Title(参考訳): 流体バッチ:エッジNPU上での早期実行ニューラルネットワークの事前実行
- Authors: Alexandros Kouris, Stylianos I. Venieris, Stefanos Laskaridis,
Nicholas D. Lane
- Abstract要約: スマートエコシステム(Smart ecosystems)は、センサがスタンドアローンではなく同時に発生するように形成されている。
これは、オンプレミスのパラダイムを、エッジに集中型ニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時にサンプルプリエンプションを適用可能な早期実行型スケジューリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 74.83613252825754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With deep neural networks (DNNs) emerging as the backbone in a multitude of
computer vision tasks, their adoption in real-world consumer applications
broadens continuously. Given the abundance and omnipresence of smart devices,
"smart ecosystems" are being formed where sensing happens simultaneously rather
than standalone. This is shifting the on-device inference paradigm towards
deploying centralised neural processing units (NPUs) at the edge, where
multiple devices (e.g. in smart homes or autonomous vehicles) can stream their
data for processing with dynamic rates. While this provides enhanced potential
for input batching, naive solutions can lead to subpar performance and quality
of experience, especially under spiking loads. At the same time, the deployment
of dynamic DNNs, comprising stochastic computation graphs (e.g. early-exit (EE)
models), introduces a new dimension of dynamic behaviour in such systems. In
this work, we propose a novel early-exit-aware scheduling algorithm that allows
sample preemption at run time, to account for the dynamicity introduced both by
the arrival and early-exiting processes. At the same time, we introduce two
novel dimensions to the design space of the NPU hardware architecture, namely
Fluid Batching and Stackable Processing Elements, that enable run-time
adaptability to different batch sizes and significantly improve the NPU
utilisation even at small batch sizes. Our evaluation shows that our system
achieves an average 1.97x and 6.7x improvement over state-of-the-art DNN
streaming systems in terms of average latency and tail latency SLO
satisfaction, respectively.
- Abstract(参考訳): コンピュータビジョンタスクのバックボーンとしてディープニューラルネットワーク(DNN)が登場し、現実のコンシューマアプリケーションへの採用が継続的に広まっています。
スマートデバイスの豊富さと全能性を考えると、センサがスタンドアロンではなく同時に発生するような“スマートエコシステム”が形成されている。
これはデバイス上の推論パラダイムを、複数のデバイス(スマートホームや自動運転車など)が動的レートで処理するためにデータをストリームできる、エッジに集中型ニューラル処理ユニット(NPU)をデプロイすることに移行するものだ。
これにより、入力バッチのポテンシャルが向上する一方で、ナイーブなソリューションは、特にスピーキング負荷下で、パフォーマンスと経験の質を損なう可能性がある。
同時に、確率計算グラフ(例えばアーリーエグジット(EE)モデル)を含む動的DNNの展開は、そのようなシステムにおける動的挙動の新しい次元を導入している。
本研究では,実行時のサンプルプリエンプションを可能とし,到着過程と早期脱出過程の両方によって引き起こされる動的性を考慮し,新たな初期出力スケジューリングアルゴリズムを提案する。
同時に, npuハードウェアアーキテクチャの設計領域に, 異なるバッチサイズに対する実行時の適応性を実現し, 小さいバッチサイズでもnpu利用性を大幅に向上させる, 流体バッチとスタック可能な処理要素という, 2つの新たな次元を導入する。
評価の結果,従来のDNNストリーミングよりも平均1.97倍,平均6.7倍,平均遅延SLO満足度は平均1.97倍であった。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - EvSegSNN: Neuromorphic Semantic Segmentation for Event Data [0.6138671548064356]
EvSegSNN は、Parametric Leaky Integrate と Fire のニューロンに依存した、生物学的に検証可能なエンコーダ-デコーダU字型アーキテクチャである。
本稿では,スパイキングニューラルネットワークとイベントカメラを組み合わせることによって,エンド・ツー・エンドのバイオインスパイアされたセマンティックセマンティックセマンティクス手法を提案する。
DDD17で実施された実験は、EvSegSNNがMIoUの観点から最も近い最先端モデルを上回っていることを示している。
論文 参考訳(メタデータ) (2024-06-20T10:36:24Z) - Adaptive Robotic Arm Control with a Spiking Recurrent Neural Network on a Digital Accelerator [41.60361484397962]
本稿では,システムの概要と,Pynq ZUプラットフォーム上で使用するPythonフレームワークについて述べる。
シミュレーションされた精度は,毎秒380万イベントのピーク性能で維持されていることを示す。
論文 参考訳(メタデータ) (2024-05-21T14:59:39Z) - DYNAP-SE2: a scalable multi-core dynamic neuromorphic asynchronous
spiking neural network processor [2.9175555050594975]
我々は、リアルタイムイベントベーススパイキングニューラルネットワーク(SNN)をプロトタイピングするための、脳にインスパイアされたプラットフォームを提案する。
提案システムは, 短期可塑性, NMDA ゲーティング, AMPA拡散, ホメオスタシス, スパイク周波数適応, コンダクタンス系デンドライトコンパートメント, スパイク伝達遅延などの動的および現実的なニューラル処理現象の直接エミュレーションを支援する。
異なる生物学的に可塑性のニューラルネットワークをエミュレートする柔軟性と、個体群と単一ニューロンの信号の両方をリアルタイムで監視する能力により、基礎研究とエッジコンピューティングの両方への応用のための複雑なニューラルネットワークモデルの開発と検証が可能になる。
論文 参考訳(メタデータ) (2023-10-01T03:48:16Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - HAPI: Hardware-Aware Progressive Inference [18.214367595727037]
畳み込みニューラルネットワーク(CNN)は最近、AIタスクの多様性における最先端技術となっている。
その人気にもかかわらず、CNN推論は依然として高い計算コストがかかる。
本研究は,ハイパフォーマンス・アーリーエグジット・ネットワークを創出するための新しい手法であるHAPIを提案する。
論文 参考訳(メタデータ) (2020-08-10T09:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。