論文の概要: MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning
- arxiv url: http://arxiv.org/abs/2110.15352v1
- Date: Thu, 28 Oct 2021 17:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 15:23:01.533422
- Title: MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning
- Title(参考訳): MCUNetV2:Tiny Deep Learningのためのメモリ効率の良いパッチベース推論
- Authors: Ji Lin, Wei-Ming Chen, Han Cai, Chuang Gan, Song Han
- Abstract要約: メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
- 参考スコア(独自算出の注目度): 70.29404271727155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tiny deep learning on microcontroller units (MCUs) is challenging due to the
limited memory size. We find that the memory bottleneck is due to the
imbalanced memory distribution in convolutional neural network (CNN) designs:
the first several blocks have an order of magnitude larger memory usage than
the rest of the network. To alleviate this issue, we propose a generic
patch-by-patch inference scheduling, which operates only on a small spatial
region of the feature map and significantly cuts down the peak memory. However,
naive implementation brings overlapping patches and computation overhead. We
further propose network redistribution to shift the receptive field and FLOPs
to the later stage and reduce the computation overhead. Manually redistributing
the receptive field is difficult. We automate the process with neural
architecture search to jointly optimize the neural architecture and inference
scheduling, leading to MCUNetV2. Patch-based inference effectively reduces the
peak memory usage of existing networks by 4-8x. Co-designed with neural
networks, MCUNetV2 sets a record ImageNet accuracy on MCU (71.8%), and achieves
>90% accuracy on the visual wake words dataset under only 32kB SRAM. MCUNetV2
also unblocks object detection on tiny devices, achieving 16.9% higher mAP on
Pascal VOC compared to the state-of-the-art result. Our study largely addressed
the memory bottleneck in tinyML and paved the way for various vision
applications beyond image classification.
- Abstract(参考訳): マイクロコントローラユニット(MCU)の微妙な深層学習は、メモリサイズが制限されているため困難である。
メモリボトルネックは畳み込みニューラルネットワーク(cnn)の設計におけるメモリ分散の不均衡に起因することが判明した。
この問題を軽減するために,特徴マップの空間領域のみで動作する汎用的なパッチ・バイ・パッチ推論スケジューリングを提案し,ピークメモリを大幅に削減する。
しかし、ナイーブな実装は重複するパッチと計算オーバーヘッドをもたらす。
さらに,レセプティブフィールドとフロップを後段にシフトし,計算オーバーヘッドを削減するネットワーク再分配を提案する。
手動でレセプティブフィールドを再配布することは難しい。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
パッチベース推論は、既存のネットワークのピークメモリ使用量を効果的に4-8倍削減する。
MCUNetV2はニューラルネットワークと共同設計され、MCU(71.8%)でImageNetの精度を記録、32kB SRAMのビジュアルウェイクワードデータセットで90%の精度で達成している。
MCUNetV2は小さなデバイスでオブジェクト検出をブロックし、Pascal VOCでは最先端の結果に比べて16.9%高いmAPを達成した。
本研究は,SmallMLにおけるメモリボトルネックに対処し,画像分類以外の様々な視覚応用の道を開いた。
関連論文リスト
- Designing Extremely Memory-Efficient CNNs for On-device Vision Tasks [2.9835839258066015]
デバイス上での視覚タスクにメモリ効率の良いCNN(畳み込みニューラルネットワーク)を導入する。
提案したネットワークは、競合するトップ1の精度(61.58%)を達成しつつ、非常に低いメモリ(63KB)でImageNetを分類する。
我々の知る限り、提案するネットワークのメモリ使用量は最先端のメモリ効率ネットワークよりもはるかに少ない。
論文 参考訳(メタデータ) (2024-08-07T10:04:04Z) - Topology-aware Embedding Memory for Continual Learning on Expanding Networks [63.35819388164267]
本稿では,メモリリプレイ技術を用いて,メモリ爆発問題に対処する枠組みを提案する。
Topology-aware Embedding Memory (TEM) を用いたPDGNNは最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-01-24T03:03:17Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z) - Condensation-Net: Memory-Efficient Network Architecture with
Cross-Channel Pooling Layers and Virtual Feature Maps [28.992851280809205]
特徴マップのメモリ容量を最大化することなく,特定のネットワークアーキテクチャ(コンデンセーションネット)を処理するアルゴリズムを提案する。
クロスチャネルプーリングは、顔検出などのオブジェクト検出タスクの精度を向上させることができる。
提案するハードウェアアーキテクチャでクロスチャネルプーリングをサポートするオーバーヘッドは無視できるほど小さい。
論文 参考訳(メタデータ) (2021-04-29T05:44:02Z) - Robust High-dimensional Memory-augmented Neural Networks [13.82206983716435]
メモリ拡張ニューラルネットワークは、これらの問題を克服するために、明示的なメモリでニューラルネットワークを強化する。
この明示的なメモリへのアクセスは、各個々のメモリエントリを含むソフト読み取りおよび書き込み操作を介して行われる。
本稿では,高次元(HD)ベクトル上でのアナログインメモリ計算を行う明示メモリとして,計算メモリユニットを用いた頑健なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-05T12:01:56Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z) - MCUNet: Tiny Deep Learning on IoT Devices [62.752899523628066]
効率的なニューラルネットワーク(TinyNAS)と軽量推論エンジン(TinyEngine)を共同で設計するフレームワークを提案する。
TinyNASは、まず検索空間を最適化してリソース制約に適合させ、次に最適化された検索空間におけるネットワークアーキテクチャを専門化する、2段階のニューラルネットワーク検索アプローチを採用している。
TinyEngineは、階層的に最適化するのではなく、全体的なネットワークトポロジに従ってメモリスケジューリングを適応し、メモリ使用量を4.8倍削減する。
論文 参考訳(メタデータ) (2020-07-20T17:59:01Z) - Efficient Neural Network Deployment for Microcontroller [0.0]
本稿では,マイクロコントローラのための畳み込みニューラルネットワークの展開を探索し,一般化する。
メモリの節約と性能は、ARM Cortex-M CPU用に開発されたCMSIS-NNフレームワークと比較される。
最終的な目的は、トレーニングされたネットワーク重みを持つPyTorchモデルを消費するツールを開発することであり、低メモリ(キロバイトレベル)と限られた計算能力を持つマイクロコントローラのためにC/C++で最適化された推論エンジンとなる。
論文 参考訳(メタデータ) (2020-07-02T19:21:05Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - FBNetV2: Differentiable Neural Architecture Search for Spatial and
Channel Dimensions [70.59851564292828]
微分可能なニューラルネットワーク探索(DNAS)は、最先端で効率的なニューラルネットワークの設計において大きな成功を収めている。
メモリと計算効率のよいDNAS変異体DMaskingNASを提案する。
このアルゴリズムは、検索スペースを従来のDNASよりも最大1014倍に拡張する。
論文 参考訳(メタデータ) (2020-04-12T08:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。