論文の概要: Efficient Neural Network Deployment for Microcontroller
- arxiv url: http://arxiv.org/abs/2007.01348v1
- Date: Thu, 2 Jul 2020 19:21:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 14:55:22.912477
- Title: Efficient Neural Network Deployment for Microcontroller
- Title(参考訳): マイクロコントローラのための効率的なニューラルネットワーク配置
- Authors: Hasan Unlu
- Abstract要約: 本稿では,マイクロコントローラのための畳み込みニューラルネットワークの展開を探索し,一般化する。
メモリの節約と性能は、ARM Cortex-M CPU用に開発されたCMSIS-NNフレームワークと比較される。
最終的な目的は、トレーニングされたネットワーク重みを持つPyTorchモデルを消費するツールを開発することであり、低メモリ(キロバイトレベル)と限られた計算能力を持つマイクロコントローラのためにC/C++で最適化された推論エンジンとなる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Edge computing for neural networks is getting important especially for low
power applications and offline devices. TensorFlow Lite and PyTorch Mobile were
released for this purpose. But they mainly support mobile devices instead of
microcontroller level yet. Microcontroller support is an emerging area now.
There are many approaches to reduce network size and compute load like pruning,
binarization and layer manipulation i.e. operator reordering. This paper is
going to explore and generalize convolution neural network deployment for
microcontrollers with two novel optimization proposals offering memory saving
and compute efficiency in 2D convolutions as well as fully connected layers.
The first one is in-place max-pooling, if the stride is greater than or equal
to pooling kernel size. The second optimization is to use ping-pong buffers
between layers to reduce memory consumption significantly. The memory savings
and performance will be compared with CMSIS-NN framework developed for ARM
Cortex-M CPUs. The final purpose is to develop a tool consuming PyTorch model
with trained network weights, and it turns into an optimized inference
engine(forward pass) in C/C++ for low memory(kilobyte level) and limited
computing capable microcontrollers.
- Abstract(参考訳): ニューラルネットワークのエッジコンピューティングは、特に低電力アプリケーションやオフラインデバイスで重要になっている。
TensorFlow LiteとPyTorch Mobileはこの目的でリリースされた。
しかし、主にマイクロコントローラレベルではなくモバイルデバイスをサポートしている。
マイクロコントローラのサポートは今、新しい分野だ。
ネットワークサイズを削減し、プルーニングやバイナライゼーション、レイヤ操作、すなわちオペレータのリオーダーといった計算負荷を削減する方法は数多く存在する。
本稿では,マイクロコントローラのための畳み込みニューラルネットワークの展開を,メモリ節約と2次元畳み込みの計算効率を完全連結層とともに提供する2つの新しい最適化提案で検討し,一般化する。
最初のものは、ストライドがカーネルサイズをプールするよりも大きい場合、インプレースマックスプーリングである。
第2の最適化は、層間のping-pongバッファを使用してメモリ消費を大幅に削減することだ。
メモリの節約と性能は、ARM Cortex-M CPU用に開発されたCMSIS-NNフレームワークと比較される。
最終的な目的は、トレーニングされたネットワーク重みを持つPyTorchモデルを消費するツールを開発することであり、低メモリ(キロバイトレベル)と限られた計算能力を持つマイクロコントローラのためにC/C++で最適化された推論エンジン(前方通過)となる。
関連論文リスト
- Enhancing MOTION2NX for Efficient, Scalable and Secure Image Inference using Convolutional Neural Networks [4.407841002228536]
我々は,C++ベースのMOTION2NXフレームワーク上に実装されたABY2.0 SMPCプロトコルを用いて,半正直なセキュリティを備えたセキュア畳み込みニューラルネットワーク(CNN)推論アプリケーションを開発した。
また、各CNN層における計算を複数のチャンクに分割する新しい分割アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-29T09:50:21Z) - Pex: Memory-efficient Microcontroller Deep Learning through Partial
Execution [11.336229510791481]
マイクロコントローラ深層学習のための新しい実行パラダイムについて論じる。
ニューラルネットワークの実行を変更して、メモリの完全なバッファーを作らないようにする。
これは演算子のプロパティを利用することで実現され、一度にインプット/アウトプットのごく一部を消費/生産することができる。
論文 参考訳(メタデータ) (2022-11-30T18:47:30Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Quantization and Deployment of Deep Neural Networks on Microcontrollers [0.0]
この研究は、低消費電力32ビットマイクロコントローラへのディープニューラルネットワークの量子化と展開に焦点を当てている。
エンドツーエンドのディープニューラルネットワークトレーニング、量子化、デプロイメントのための新しいフレームワークが紹介されている。
単一精度32ビット浮動小数点と8ビットおよび16ビット整数上の固定点を用いた実行がサポートされている。
論文 参考訳(メタデータ) (2021-05-27T17:39:06Z) - Optimization of XNOR Convolution for Binary Convolutional Neural
Networks on GPU [2.578242050187029]
本稿では,GPU上でのバイナリ畳み込みネットワーク推論の実装を提案する。
実験の結果、GPUを使用することで、カーネルサイズが3ドル3セントの最大42.61ドルまでスピードアップできることがわかった。
論文 参考訳(メタデータ) (2020-07-28T13:01:17Z) - MCUNet: Tiny Deep Learning on IoT Devices [62.752899523628066]
効率的なニューラルネットワーク(TinyNAS)と軽量推論エンジン(TinyEngine)を共同で設計するフレームワークを提案する。
TinyNASは、まず検索空間を最適化してリソース制約に適合させ、次に最適化された検索空間におけるネットワークアーキテクチャを専門化する、2段階のニューラルネットワーク検索アプローチを採用している。
TinyEngineは、階層的に最適化するのではなく、全体的なネットワークトポロジに従ってメモリスケジューリングを適応し、メモリ使用量を4.8倍削減する。
論文 参考訳(メタデータ) (2020-07-20T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。