論文の概要: DORY: Automatic End-to-End Deployment of Real-World DNNs on Low-Cost IoT
MCUs
- arxiv url: http://arxiv.org/abs/2008.07127v3
- Date: Fri, 19 Mar 2021 15:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 03:53:44.504607
- Title: DORY: Automatic End-to-End Deployment of Real-World DNNs on Low-Cost IoT
MCUs
- Title(参考訳): DORY: 低コストIoT MCU上でのリアルタイムDNNの自動エンドツーエンドデプロイ
- Authors: Alessio Burrello, Angelo Garofalo, Nazareno Bruschi, Giuseppe
Tagliavini, Davide Rossi, Francesco Conti
- Abstract要約: 低コストのMCUベースのエンドノードはオンチップメモリが限られており、キャッシュをスクラッチパッドで置き換えることが多い。
DORYは、通常1MB以下のオンチップメモリを持つ低価格のMCUにデプロイする自動ツールである。
- 参考スコア(独自算出の注目度): 6.403349961091506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of Deep Neural Networks (DNNs) on end-nodes at the extreme
edge of the Internet-of-Things is a critical enabler to support pervasive Deep
Learning-enhanced applications. Low-Cost MCU-based end-nodes have limited
on-chip memory and often replace caches with scratchpads, to reduce area
overheads and increase energy efficiency -- requiring explicit DMA-based memory
transfers between different levels of the memory hierarchy. Mapping modern DNNs
on these systems requires aggressive topology-dependent tiling and
double-buffering. In this work, we propose DORY (Deployment Oriented to memoRY)
- an automatic tool to deploy DNNs on low cost MCUs with typically less than
1MB of on-chip SRAM memory. DORY abstracts tiling as a Constraint Programming
(CP) problem: it maximizes L1 memory utilization under the topological
constraints imposed by each DNN layer. Then, it generates ANSI C code to
orchestrate off- and on-chip transfers and computation phases. Furthermore, to
maximize speed, DORY augments the CP formulation with heuristics promoting
performance-effective tile sizes. As a case study for DORY, we target
GreenWaves Technologies GAP8, one of the most advanced parallel ultra-low power
MCU-class devices on the market. On this device, DORY achieves up to 2.5x
better MAC/cycle than the GreenWaves proprietary software solution and 18.1x
better than the state-of-the-art result on an STM32-F746 MCU on single layers.
Using our tool, GAP-8 can perform end-to-end inference of a 1.0-MobileNet-128
network consuming just 63 pJ/MAC on average @ 4.3 fps - 15.4x better than an
STM32-F746. We release all our developments - the DORY framework, the optimized
backend kernels, and the related heuristics - as open-source software.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)をインターネットの極端端にあるエンドノードにデプロイすることは、広範にディープラーニングに強化されたアプリケーションをサポートするための重要な有効性である。
低コストのMCUベースのエンドノードはオンチップメモリに制限があり、キャッシュをスクラッチパッドに置き換えることが多い。
現代のDNNをこれらのシステムにマッピングするには、積極的なトポロジーに依存したタイリングとダブルバッファリングが必要である。
本研究は,DNNを1MB未満のオンチップSRAMメモリで,低コストのMCU上にデプロイする自動ツールであるDORY(Deployment Oriented to memoRY)を提案する。
DORYはタイリングを制約プログラミング(CP)問題として抽象化し、各DNN層が課すトポロジ的制約の下でL1メモリの利用を最大化する。
その後、ANSI Cコードを生成し、オフチップおよびオンチップ転送と計算フェーズをオーケストレーションする。
さらに, 速度を最大化するために, doryは, 性能効率の高いタイルサイズを促進するヒューリスティックスを用いて, cpの定式化を増強する。
DORYのケーススタディでは、市場で最も先進的な並列超低電力MCUクラスのデバイスであるGreenWaves Technologies GAP8をターゲットにしている。
このデバイス上では、DORYはGreenWavesのプロプライエタリなソフトウェアソリューションよりも最大2.5倍のMAC/サイクルを実現し、単一のレイヤ上のSTM32-F746 MCUの最先端結果より18.1倍高い。
このツールを使うことで、gap-8は、stm32-f746よりも平均4.3 fpsで、わずか63 pj/macの1.0-mobilenet-128ネットワークのエンドツーエンドな推論を行うことができる。
オープンソースソフトウェアとして、DORYフレームワーク、最適化されたバックエンドカーネル、および関連するヒューリスティックなすべての開発をリリースします。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Spiker+: a framework for the generation of efficient Spiking Neural
Networks FPGA accelerators for inference at the edge [49.42371633618761]
Spiker+はFPGA上で、エッジでの推論のために効率よく、低消費電力で、低領域でカスタマイズされたSpking Neural Networks(SNN)アクセラレータを生成するためのフレームワークである。
Spiker+ は MNIST と Spiking Heidelberg Digits (SHD) の2つのベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2024-01-02T10:42:42Z) - RAMAN: A Re-configurable and Sparse tinyML Accelerator for Inference on
Edge [1.8293684411977293]
エッジでのDeep Neural Network(DNN)ベースの推論は、これらの計算およびデータ集約アルゴリズムを低コストで低消費電力で実装する必要があるため、難しい。
エッジ上のInfereNce用のRe-configurableおよびspArse smallML AcceleratorであるRAMANを紹介します。
論文 参考訳(メタデータ) (2023-06-10T17:25:58Z) - PSCNN: A 885.86 TOPS/W Programmable SRAM-based Computing-In-Memory
Processor for Keyword Spotting [0.10547353841674209]
本稿では,複数のより小さなCIMマクロではなく,1つの大きなCIMマクロを持つプログラマブルCIMプロセッサを提案する。
提案アーキテクチャでは,解凍あるいは独立な畳み込み/プーリング操作をサポートするために,プール書き込み方式を採用し,35.9%のレイテンシ削減を実現している。
TSMC 28nm技術で作製された設計は、150.8 GOPSスループットと885.86 TOPS/W電力効率を10MHzで達成する。
論文 参考訳(メタデータ) (2022-05-02T09:58:18Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - MicroNet: Towards Image Recognition with Extremely Low FLOPs [117.96848315180407]
MicroNetは計算コストの極めて低い効率的な畳み込みニューラルネットワークである。
MicroNetのファミリは、低いFLOP体制における最先端技術よりも大きなパフォーマンス向上を実現している。
例えば、MicroNet-M1は12のMFLOPを持つImageNet分類において61.1%のトップ-1の精度を達成し、MobileNetV3を11.3%上回っている。
論文 参考訳(メタデータ) (2020-11-24T18:59:39Z) - RNNAccel: A Fusion Recurrent Neural Network Accelerator for Edge
Intelligence [2.055204980188575]
我々は、RNNAccelと呼ばれるRNNディープラーニングアクセラレータを提示する。
LSTM(Long Short-Term Memory)ネットワーク、GRU(Gated Recurrent Unit)ネットワーク、FC(Fully Connected Layer)/MLP(Multiple-Perceptron Layer)ネットワークをサポートする。
32-MAC RNNアクセラレータは90%のMAC利用、40nmプロセスで1.27TOP/W、圧縮比8倍、推測精度90%を達成する。
論文 参考訳(メタデータ) (2020-10-26T03:36:36Z) - Q-EEGNet: an Energy-Efficient 8-bit Quantized Parallel EEGNet
Implementation for Edge Motor-Imagery Brain--Machine Interfaces [16.381467082472515]
運動画像脳-機械インタフェース(MI-BMI)は、人間の脳と機械間の直接的かつアクセス可能なコミュニケーションをプロミットする。
脳波信号を分類するためのディープラーニングモデルが登場した。
これらのモデルは、メモリと計算要求のため、エッジデバイスの限界を超えることが多い。
論文 参考訳(メタデータ) (2020-04-24T12:29:03Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。