Fugu-MT 論文翻訳(概要): Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural Networks on Edge NPUs

論文の概要: Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural Networks on Edge NPUs

arxiv url: http://arxiv.org/abs/2209.13443v2
Date: Fri, 4 Aug 2023 21:29:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-09 00:49:09.270038
Title: Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural Networks on Edge NPUs
Title（参考訳）: 流体バッチ:エッジNPU上での早期実行ニューラルネットワークの事前実行
Authors: Alexandros Kouris, Stylianos I. Venieris, Stefanos Laskaridis, Nicholas D. Lane
Abstract要約: スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
参考スコア（独自算出の注目度）: 74.83613252825754
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With deep neural networks (DNNs) emerging as the backbone in a multitude of computer vision tasks, their adoption in real-world applications broadens continuously. Given the abundance and omnipresence of smart devices in the consumer landscape, "smart ecosystems'' are being formed where sensing happens concurrently rather than standalone. This is shifting the on-device inference paradigm towards deploying centralised neural processing units (NPUs) at the edge, where multiple devices (e.g. in smart homes or autonomous vehicles) can stream their data for processing with dynamic rates. While this provides enhanced potential for input batching, naive solutions can lead to subpar performance and quality of experience, especially under spiking loads. At the same time, the deployment of dynamic DNNs, comprising stochastic computation graphs (e.g. early-exit (EE) models), introduces a new dimension of dynamic behaviour in such systems. In this work, we propose a novel early-exit-aware scheduling algorithm that allows sample preemption at run time, to account for the dynamicity introduced both by the arrival and early-exiting processes. At the same time, we introduce two novel dimensions to the design space of the NPU hardware architecture, namely Fluid Batching and Stackable Processing Elements, that enable run-time adaptability to different batch sizes and significantly improve the NPU utilisation even at small batches. Our evaluation shows that the proposed system achieves an average 1.97x and 6.7x improvement over state-of-the-art DNN streaming systems in terms of average latency and tail latency service-level objective (SLO) satisfaction, respectively.
Abstract（参考訳）: コンピュータビジョンタスクのバックボーンとしてディープニューラルネットワーク(DNN)が登場し、現実のアプリケーションへの採用が継続的に広まっています。消費者の世界におけるスマートデバイスの存在と全能性を考えると、"スマートエコシステム"は、センシングがスタンドアロンではなく同時に行われるように形成されている。これはデバイス上の推論パラダイムを、複数のデバイス(スマートホームや自動運転車など)が動的レートで処理するためにデータをストリームできる、エッジに集中型ニューラル処理ユニット(NPU)をデプロイすることに移行するものだ。これにより、入力バッチのポテンシャルが向上する一方で、ナイーブなソリューションは、特にスピーキング負荷下で、パフォーマンスと経験の質を損なう可能性がある。同時に、確率計算グラフ(例えばアーリーエグジット(EE)モデル)を含む動的DNNの展開は、そのようなシステムにおける動的挙動の新しい次元を導入している。本研究では,実行時のサンプルプリエンプションを可能とし,到着過程と早期脱出過程の両方によって引き起こされる動的性を考慮し,新たな初期出力スケジューリングアルゴリズムを提案する。同時に, npuハードウェアアーキテクチャの設計領域に, 異なるバッチサイズに対する実行時の適応性を実現し, 小さいバッチでもnpu利用性を大幅に向上させる, 流体バッチとスタック可能な処理要素という, 2つの新たな次元を導入する。評価の結果,提案システムは,平均レイテンシとテール遅延サービスレベル満足度の観点から,最先端DNNストリーミングシステムよりも平均1.97倍,平均6.7倍向上していることがわかった。

関連論文リスト

Model-free front-to-end training of a large high performance laser neural network [0.0]
オフザシェルフコンポーネントを用いた完全自律並列光ニューラルネットワーク(ONN)を実演する。我々のONNは高効率で、ネットワークサイズと推定帯域幅の両方で、GHzレンジに向けてスケーラブルです。我々は,ハードウェアリソースの制限下であっても,ONNが高精度かつ収束効率を実現できることを示す。
論文参考訳（メタデータ） (2025-03-21T08:43:02Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
EvSegSNN: Neuromorphic Semantic Segmentation for Event Data [0.6138671548064356]
EvSegSNN は、Parametric Leaky Integrate と Fire のニューロンに依存した、生物学的に検証可能なエンコーダ-デコーダU字型アーキテクチャである。本稿では,スパイキングニューラルネットワークとイベントカメラを組み合わせることによって,エンド・ツー・エンドのバイオインスパイアされたセマンティックセマンティックセマンティクス手法を提案する。 DDD17で実施された実験は、EvSegSNNがMIoUの観点から最も近い最先端モデルを上回っていることを示している。
論文参考訳（メタデータ） (2024-06-20T10:36:24Z)
Adaptive Robotic Arm Control with a Spiking Recurrent Neural Network on a Digital Accelerator [41.60361484397962]
本稿では,システムの概要と,Pynq ZUプラットフォーム上で使用するPythonフレームワークについて述べる。シミュレーションされた精度は,毎秒380万イベントのピーク性能で維持されていることを示す。
論文参考訳（メタデータ） (2024-05-21T14:59:39Z)
DYNAP-SE2: a scalable multi-core dynamic neuromorphic asynchronous spiking neural network processor [2.9175555050594975]
我々は、リアルタイムイベントベーススパイキングニューラルネットワーク(SNN)をプロトタイピングするための、脳にインスパイアされたプラットフォームを提案する。提案システムは, 短期可塑性, NMDA ゲーティング, AMPA拡散, ホメオスタシス, スパイク周波数適応, コンダクタンス系デンドライトコンパートメント, スパイク伝達遅延などの動的および現実的なニューラル処理現象の直接エミュレーションを支援する。異なる生物学的に可塑性のニューラルネットワークをエミュレートする柔軟性と、個体群と単一ニューロンの信号の両方をリアルタイムで監視する能力により、基礎研究とエッジコンピューティングの両方への応用のための複雑なニューラルネットワークモデルの開発と検証が可能になる。
論文参考訳（メタデータ） (2023-10-01T03:48:16Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文参考訳（メタデータ） (2022-05-25T11:08:20Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文参考訳（メタデータ） (2021-06-07T11:37:03Z)
HAPI: Hardware-Aware Progressive Inference [18.214367595727037]
畳み込みニューラルネットワーク(CNN)は最近、AIタスクの多様性における最先端技術となっている。その人気にもかかわらず、CNN推論は依然として高い計算コストがかかる。本研究は,ハイパフォーマンス・アーリーエグジット・ネットワークを創出するための新しい手法であるHAPIを提案する。
論文参考訳（メタデータ） (2020-08-10T09:55:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。