論文の概要: Differentiable Network Pruning for Microcontrollers
- arxiv url: http://arxiv.org/abs/2110.08350v1
- Date: Fri, 15 Oct 2021 20:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 20:51:02.229082
- Title: Differentiable Network Pruning for Microcontrollers
- Title(参考訳): マイクロコントローラのネットワーク・プルーニング
- Authors: Edgar Liberis, Nicholas D. Lane
- Abstract要約: 本稿では,畳み込みニューラルネットワークのための可変構造型ネットワークプルーニング法を提案する。
モデル固有のリソース使用量とパラメータ重要度フィードバックを統合し、高度に圧縮されかつ正確な分類モデルを得る。
- 参考スコア(独自算出の注目度): 14.864940447206871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embedded and personal IoT devices are powered by microcontroller units
(MCUs), whose extreme resource scarcity is a major obstacle for applications
relying on on-device deep learning inference. Orders of magnitude less storage,
memory and computational capacity, compared to what is typically required to
execute neural networks, impose strict structural constraints on the network
architecture and call for specialist model compression methodology. In this
work, we present a differentiable structured network pruning method for
convolutional neural networks, which integrates a model's MCU-specific resource
usage and parameter importance feedback to obtain highly compressed yet
accurate classification models. Our methodology (a) improves key resource usage
of models up to 80x; (b) prunes iteratively while a model is trained, resulting
in little to no overhead or even improved training time; (c) produces
compressed models with matching or improved resource usage up to 1.7x in less
time compared to prior MCU-specific methods. Compressed models are available
for download.
- Abstract(参考訳): 組み込みおよびパーソナルIoTデバイスは、マイクロコントローラユニット(MCU)によって駆動される。
ニューラルネットワークの実行に必要なものと比較して、ストレージ、メモリ、計算能力の桁違いが小さく、ネットワークアーキテクチャに厳格な構造的制約を課し、専門的なモデル圧縮方法論を要求する。
本研究では,モデルのMCU固有の資源使用量とパラメータ重要度フィードバックを統合し,高度に圧縮されかつ正確な分類モデルを得る畳み込みニューラルネットワークのネットワーク解析手法を提案する。
私たちの方法論
(a)80倍までのモデルのキーリソース使用量を改善する。
b) モデルの訓練中に反復的にプーンを鳴らし,その結果,オーバーヘッドが少なく,あるいは訓練時間も改善する。
(c) 従来のMCU固有の手法と比較して、リソース使用率を最大1.7倍に改善した圧縮モデルを生成する。
圧縮されたモデルはダウンロード可能だ。
関連論文リスト
- A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Energy-efficient Deployment of Deep Learning Applications on Cortex-M
based Microcontrollers using Deep Compression [1.4050836886292872]
本稿では,資源制約されたマイクロコントローラ上でのディープラーニングモデルの効率的な展開について検討する。
本稿では,異なるDNNプルーニング,量子化,展開戦略の体系的な探索手法を提案する。
予測品質が低下する前に、元のパラメータの10%以下まで圧縮できることが示される。
論文 参考訳(メタデータ) (2022-05-20T10:55:42Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - A New Clustering-Based Technique for the Acceleration of Deep
Convolutional Networks [2.7393821783237184]
MCA(Model Compression and Acceleration)技術は、大規模な事前学習ネットワークをより小さなモデルに変換するために用いられる。
本稿では,採用したセントロイド/表現量を増やすクラスタリングに基づく手法を提案する。
これは、被雇用者に対して特別な構造を課すことによって達成され、これは、目の前の問題の特異性によって実現される。
論文 参考訳(メタデータ) (2021-07-19T18:22:07Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z) - Compact CNN Structure Learning by Knowledge Distillation [34.36242082055978]
知識蒸留とカスタマイズ可能なブロックワイズ最適化を活用し、軽量なCNN構造を学習するフレームワークを提案する。
提案手法は,予測精度の向上を図りながら,アートネットワーク圧縮の状態を再現する。
特に,すでにコンパクトなネットワークであるMobileNet_v2では,モデル圧縮が最大2倍,モデル圧縮が5.2倍向上する。
論文 参考訳(メタデータ) (2021-04-19T10:34:22Z) - A Variational Information Bottleneck Based Method to Compress Sequential
Networks for Human Action Recognition [9.414818018857316]
本稿では,人間行動認識(HAR)に用いるリカレントニューラルネットワーク(RNN)を効果的に圧縮する手法を提案する。
変分情報ボトルネック(VIB)理論に基づくプルーニング手法を用いて,RNNの逐次セルを流れる情報の流れを小さなサブセットに制限する。
我々は、圧縮を大幅に改善する特定のグループ・ラッソ正規化手法とプルーニング手法を組み合わせる。
提案手法は,UCF11上での動作認識の精度に比較して,最も近い競合に比べて70倍以上の圧縮を実現する。
論文 参考訳(メタデータ) (2020-10-03T12:41:51Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。