論文の概要: Deep Compression for PyTorch Model Deployment on Microcontrollers
- arxiv url: http://arxiv.org/abs/2103.15972v1
- Date: Mon, 29 Mar 2021 22:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 05:22:12.225620
- Title: Deep Compression for PyTorch Model Deployment on Microcontrollers
- Title(参考訳): マイクロコントローラへのPyTorchモデル展開のための深部圧縮
- Authors: Eren Dogan, H. Fatih Ugurdag, Hasan Unlu
- Abstract要約: 本稿では、モデル圧縮、特にDeep CompressionをUnluのarXivに関する初期の研究に追加する。
LeNet-5モデルの場合、メモリフットプリントは12.45倍に削減され、推論速度は2.57倍に向上した。
- 参考スコア(独自算出の注目度): 0.2578242050187029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural network deployment on low-cost embedded systems, hence on
microcontrollers (MCUs), has recently been attracting more attention than ever.
Since MCUs have limited memory capacity as well as limited compute-speed, it is
critical that we employ model compression, which reduces both memory and
compute-speed requirements. In this paper, we add model compression,
specifically Deep Compression, and further optimize Unlu's earlier work on
arXiv, which efficiently deploys PyTorch models on MCUs. First, we prune the
weights in convolutional and fully connected layers. Secondly, the remaining
weights and activations are quantized to 8-bit integers from 32-bit
floating-point. Finally, forward pass functions are compressed using special
data structures for sparse matrices, which store only nonzero weights (without
impacting performance and accuracy). In the case of the LeNet-5 model, the
memory footprint was reduced by 12.45x, and the inference speed was boosted by
2.57x.
- Abstract(参考訳): 低コストな組み込みシステム、すなわちマイクロコントローラ(mcu)上でのニューラルネットワークのデプロイメントは、最近はこれまで以上に注目を集めている。
MCUはメモリ容量に制限があり、計算速度に制限があるため、我々はメモリと計算速度の両方の要求を減らすモデル圧縮を採用することが重要である。
本稿では、モデル圧縮、特にDeep Compressionを追加し、MCUにPyTorchモデルを効率的にデプロイするarXivに関するUnluの初期の作業を最適化する。
まず、重みを畳み込み層と完全連結層に重み付けする。
次に、残りの重みとアクティベーションを32ビット浮動小数点から8ビット整数に量子化する。
最後に、フォワードパス関数はスパース行列のための特別なデータ構造を使用して圧縮される。
LeNet-5モデルの場合、メモリフットプリントは12.45倍に削減され、推論速度は2.57倍に向上した。
関連論文リスト
- "Lossless" Compression of Deep Neural Networks: A High-dimensional
Neural Tangent Kernel Approach [49.744093838327615]
広帯域かつ完全接続型エンフディープニューラルネットに対する新しい圧縮手法を提案する。
提案手法の利点を支えるために, 合成データと実世界のデータの両方の実験を行った。
論文 参考訳(メタデータ) (2024-03-01T03:46:28Z) - Compressed Real Numbers for AI: a case-study using a RISC-V CPU [2.0516276923852415]
我々は、機械学習アプリケーションにおいて、バイナリ32数値を圧縮する興味深い結果を得た2種類のフォーマットに焦点を当てる。
本稿では,計算直前に浮動小数点のテンソルを分解する方法を提案する。
論文 参考訳(メタデータ) (2023-09-11T07:54:28Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [70.29404271727155]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z) - Compression strategies and space-conscious representations for deep
neural networks [0.3670422696827526]
近年のディープラーニングの進歩により、いくつかの実世界のアプリケーションで最先端のパフォーマンスを備えた強力な畳み込みニューラルネットワーク(CNN)が利用可能になった。
CNNには数百万のパラメータがあり、リソース制限のあるプラットフォームではデプロイできない。
本稿では,重み付けと量子化によるCNNの損失圧縮の影響について検討する。
論文 参考訳(メタデータ) (2020-07-15T19:41:19Z) - Efficient Neural Network Deployment for Microcontroller [0.0]
本稿では,マイクロコントローラのための畳み込みニューラルネットワークの展開を探索し,一般化する。
メモリの節約と性能は、ARM Cortex-M CPU用に開発されたCMSIS-NNフレームワークと比較される。
最終的な目的は、トレーニングされたネットワーク重みを持つPyTorchモデルを消費するツールを開発することであり、低メモリ(キロバイトレベル)と限られた計算能力を持つマイクロコントローラのためにC/C++で最適化された推論エンジンとなる。
論文 参考訳(メタデータ) (2020-07-02T19:21:05Z) - Kernel Quantization for Efficient Network Compression [59.55192551370948]
Kernel Quantization(KQ)は、事前訓練された全精度畳み込みニューラルネットワーク(CNN)モデルを、大幅なパフォーマンス損失のない低精度バージョンに効率的に変換することを目的としている。
重み付けからフィルタプルーニングへの進化に触発され,カーネルレベルと重み付けレベルの両方で定量化することを提案する。
ImageNet分類タスクの実験では、KQはVGGとResNet18でそれぞれ平均1.05ビットと1.62ビットを必要とし、畳み込み層の各パラメータを表す。
論文 参考訳(メタデータ) (2020-03-11T08:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。