Fugu-MT 論文翻訳(概要): Keyword Spotting System and Evaluation of Pruning and Quantization Methods on Low-power Edge Microcontrollers

論文の概要: Keyword Spotting System and Evaluation of Pruning and Quantization Methods on Low-power Edge Microcontrollers

arxiv url: http://arxiv.org/abs/2208.02765v1
Date: Thu, 4 Aug 2022 16:49:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-05 13:05:06.762138
Title: Keyword Spotting System and Evaluation of Pruning and Quantization Methods on Low-power Edge Microcontrollers
Title（参考訳）: 低消費電力エッジマイクロコントローラにおけるキーワードスポッティングシステムとプルーニング・量子化手法の評価
Authors: Jingyi Wang, Shengchen Li
Abstract要約: キーワードスポッティング(KWS)は、エッジの低消費電力デバイスとの音声ベースのユーザインタラクションに有用である。本稿では,Cortex-M7コア@216MHzと512KBの静的RAMを備えたSTM32F7マイクロコントローラ上で動作するKWSシステムについて述べる。
参考スコア（独自算出の注目度）: 7.570300579676175
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Keyword spotting (KWS) is beneficial for voice-based user interactions with low-power devices at the edge. The edge devices are usually always-on, so edge computing brings bandwidth savings and privacy protection. The devices typically have limited memory spaces, computational performances, power and costs, for example, Cortex-M based microcontrollers. The challenge is to meet the high computation and low-latency requirements of deep learning on these devices. This paper firstly shows our small-footprint KWS system running on STM32F7 microcontroller with Cortex-M7 core @216MHz and 512KB static RAM. Our selected convolutional neural network (CNN) architecture has simplified number of operations for KWS to meet the constraint of edge devices. Our baseline system generates classification results for each 37ms including real-time audio feature extraction part. This paper further evaluates the actual performance for different pruning and quantization methods on microcontroller, including different granularity of sparsity, skipping zero weights, weight-prioritized loop order, and SIMD instruction. The result shows that for microcontrollers, there are considerable challenges for accelerate unstructured pruned models, and the structured pruning is more friendly than unstructured pruning. The result also verified that the performance improvement for quantization and SIMD instruction.
Abstract（参考訳）: キーワードスポッティング(KWS)は、エッジの低消費電力デバイスとの音声ベースのユーザインタラクションに有用である。エッジデバイスは通常常時オンなので、エッジコンピューティングは帯域幅の節約とプライバシー保護をもたらす。デバイスは通常、メモリスペース、計算性能、電力とコスト、例えばcortex-mベースのマイクロコントローラが制限されている。課題は、これらのデバイス上でのディープラーニングの高計算と低レイテンシ要件を満たすことだ。本稿ではまず,stm32f7マイクロコントローラ上で動作し,cortex-m7コア@216mhzと512kbの静的ramを持つ小型kwsシステムについて述べる。我々の選択した畳み込みニューラルネットワーク(CNN)アーキテクチャは、エッジデバイスの制約を満たすために、KWSの操作数を単純化した。ベースラインシステムは,リアルタイム音声特徴抽出部を含む37ms毎に分類結果を生成する。本稿では,マイクロコントローラ上での異なるプルーニングおよび量子化手法の実際の性能について,粒度の違い,ゼロウェイトスキップ,重み優先ループ順序,SIMD命令などについて検討する。その結果、マイクロコントローラでは、非構造化プルーニングモデルにかなりの課題があり、構造化プルーニングは非構造化プルーニングよりもフレンドリーであることがわかった。また,量子化およびSIMD命令の性能向上も確認した。

関連論文リスト

UnIT: Scalable Unstructured Inference-Time Pruning for MAC-efficient Neural Inference on MCUs [1.9626657740463982]
UnIT (Unstructured Inference-Time pruning) は、推論中に不要な乗算(MAC)操作を動的に識別し、スキップする軽量な手法である。プルーニング決定を軽量比較に変換し、乗算をしきい値チェックと近似分割に置き換える。 UNITは11.02%から82.03%のMAC削減、27.30%から84.19%の高速推論、27.33%から84.38%の低エネルギー化を実現している。
論文参考訳（メタデータ） (2025-07-10T16:12:06Z)
Accelerating TinyML Inference on Microcontrollers through Approximate Kernels [3.566060656925169]
本研究では、近似計算とソフトウェアカーネル設計を組み合わせることで、マイクロコントローラ上での近似CNNモデルの推定を高速化する。 CIFAR-10データセットでトレーニングされたSTM32-Nucleoボードと2つの人気のあるCNNによる評価は、最先端の正確な推測と比較すると、平均21%のレイテンシ削減が可能であることを示している。
論文参考訳（メタデータ） (2024-09-25T11:10:33Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
Evaluation of Convolution Primitives for Embedded Neural Networks on 32-bit Microcontrollers [0.0]
オープンソースデプロイメントプラットフォーム(NNoM)を用いたARM Cortex-Mプロセッサファミリの実装を提案する。本ベンチマークでは,理論MACとエネルギー消費の線形関係を明らかにする。 SIMD命令の使用による遅延とエネルギー消費の大幅な削減について論じる。
論文参考訳（メタデータ） (2023-03-19T16:17:19Z)
Pex: Memory-efficient Microcontroller Deep Learning through Partial Execution [11.336229510791481]
マイクロコントローラ深層学習のための新しい実行パラダイムについて論じる。ニューラルネットワークの実行を変更して、メモリの完全なバッファーを作らないようにする。これは演算子のプロパティを利用することで実現され、一度にインプット/アウトプットのごく一部を消費/生産することができる。
論文参考訳（メタデータ） (2022-11-30T18:47:30Z)
MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。 MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文参考訳（メタデータ） (2022-04-27T14:00:48Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文参考訳（メタデータ） (2021-10-28T17:58:45Z)
Efficient Micro-Structured Weight Unification and Pruning for Neural Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文参考訳（メタデータ） (2021-06-15T17:22:59Z)
Quantization and Deployment of Deep Neural Networks on Microcontrollers [0.0]
この研究は、低消費電力32ビットマイクロコントローラへのディープニューラルネットワークの量子化と展開に焦点を当てている。エンドツーエンドのディープニューラルネットワークトレーニング、量子化、デプロイメントのための新しいフレームワークが紹介されている。単一精度32ビット浮動小数点と8ビットおよび16ビット整数上の固定点を用いた実行がサポートされている。
論文参考訳（メタデータ） (2021-05-27T17:39:06Z)
FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文参考訳（メタデータ） (2021-03-08T03:09:37Z)
Efficient Neural Network Deployment for Microcontroller [0.0]
本稿では,マイクロコントローラのための畳み込みニューラルネットワークの展開を探索し,一般化する。メモリの節約と性能は、ARM Cortex-M CPU用に開発されたCMSIS-NNフレームワークと比較される。最終的な目的は、トレーニングされたネットワーク重みを持つPyTorchモデルを消費するツールを開発することであり、低メモリ(キロバイトレベル)と限られた計算能力を持つマイクロコントローラのためにC/C++で最適化された推論エンジンとなる。
論文参考訳（メタデータ） (2020-07-02T19:21:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。