論文の概要: Weight, Block or Unit? Exploring Sparsity Tradeoffs for Speech
Enhancement on Tiny Neural Accelerators
- arxiv url: http://arxiv.org/abs/2111.02351v1
- Date: Wed, 3 Nov 2021 17:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 14:47:33.424117
- Title: Weight, Block or Unit? Exploring Sparsity Tradeoffs for Speech
Enhancement on Tiny Neural Accelerators
- Title(参考訳): 重量、ブロック、ユニット?
Tiny Neural Acceleratorにおける音声強調のための空間トレードオフ探索
- Authors: Marko Stamenovic, Nils L. Westhausen, Li-Chia Yang, Carl Jensen, Alex
Pawlicki
- Abstract要約: 我々は、低消費電力マイクロコントローラベースのニューラルアクセラレータ(microNPU)の新世代のための最適構成まで、ニューラルネットワーク拡張(SE)を圧縮する目的で、ネットワークスペーシフィケーション戦略を検討する。
本研究は, 軽量刈り, ブロック刈り, ユニット刈りの3つの特異な空間構造について検討し, SEに適用した場合の利点と欠点について考察する。
- 参考スコア(独自算出の注目度): 4.1070979067056745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore network sparsification strategies with the aim of compressing
neural speech enhancement (SE) down to an optimal configuration for a new
generation of low power microcontroller based neural accelerators (microNPU's).
We examine three unique sparsity structures: weight pruning, block pruning and
unit pruning; and discuss their benefits and drawbacks when applied to SE. We
focus on the interplay between computational throughput, memory footprint and
model quality. Our method supports all three structures above and jointly
learns integer quantized weights along with sparsity. Additionally, we
demonstrate offline magnitude based pruning of integer quantized models as a
performance baseline. Although efficient speech enhancement is an active area
of research, our work is the first to apply block pruning to SE and the first
to address SE model compression in the context of microNPU's. Using weight
pruning, we show that we are able to compress an already compact model's memory
footprint by a factor of 42x from 3.7MB to 87kB while only losing 0.1 dB SDR in
performance. We also show a computational speedup of 6.7x with a corresponding
SDR drop of only 0.59 dB SDR using block pruning.
- Abstract(参考訳): 我々は,低消費電力マイクロコントローラを用いたニューラルアクセラレータ(microNPU)の新世代のための最適構成まで,ニューラルネットワーク拡張(SE)を圧縮する目的で,ネットワークスペーシフィケーション戦略を検討する。
本研究は, 軽量刈り, ブロック刈り, ユニット刈りの3つの特異な空間構造について検討し, SEに適用した場合の利点と欠点について考察する。
我々は,計算スループットとメモリフットプリント,モデル品質の相互作用に注目した。
上記の3つの構造を全てサポートし、空間性とともに整数量子化重みを共同学習する。
さらに、整数量子化モデルのオフライン等級に基づくプルーニングを性能ベースラインとして示す。
効率的な音声強調は研究の活発な領域であるが,我々はまずSEにブロックプルーニングを適用し,まずマイクロNPUの文脈でSEモデル圧縮に対処する。
重み付け法を用いて、既にコンパクトなモデルのメモリフットプリントを3.7MBから87kBまで42倍圧縮でき、性能は0.1dBのSDRしか失わないことを示す。
また,ブロックプルーニングを用いて,SDRの0.59dB SDRに対応する6.7倍の高速化を示す。
関連論文リスト
- SNP: Structured Neuron-level Pruning to Preserve Attention Scores [2.4204190488008046]
マルチヘッド自己注意(MSA)は視覚変換器(ViT)の重要な構成要素である
我々は,新しいグラフ対応ニューロンレベルプルーニング法,構造化ニューロンレベルプルーニング(Structured Neuron-level Pruning, SNP)を提案する。
提案手法は,エッジデバイスとサーバプロセッサの両方において,Transformerベースのモデルを効果的に圧縮・高速化する。
論文 参考訳(メタデータ) (2024-04-18T03:21:28Z) - Compressing the Backward Pass of Large-Scale Neural Architectures by
Structured Activation Pruning [0.0]
ディープニューラルネットワーク(DNN)におけるスパシティはソリューションとして注目されている。
この研究は、訓練中のメモリ消費を減らすことを目的として、短命の空間性に焦点を当てている。
大規模ニューラルアーキテクチャのトレーニング速度,精度,メモリ使用量を評価することにより,アクティベーションプルーニングの有効性を報告する。
論文 参考訳(メタデータ) (2023-11-28T15:31:31Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - 1$\times$N Block Pattern for Network Sparsity [90.43191747596491]
我々は,この制限を破るために,ブロック間隔パターン(ブロックプルーニング)を1時間で定義する新しい概念を提案する。
このパターンはMobileNet-V2の上位1の精度でフィルタプルーニングよりも約3.0%改善されている。
また、重み付けによるCortex-A7 CPUの56.04msの推論も得る。
論文 参考訳(メタデータ) (2021-05-31T05:50:33Z) - Deep Compression for PyTorch Model Deployment on Microcontrollers [0.2578242050187029]
本稿では、モデル圧縮、特にDeep CompressionをUnluのarXivに関する初期の研究に追加する。
LeNet-5モデルの場合、メモリフットプリントは12.45倍に削減され、推論速度は2.57倍に向上した。
論文 参考訳(メタデータ) (2021-03-29T22:08:44Z) - Single-path Bit Sharing for Automatic Loss-aware Model Compression [126.98903867768732]
シングルパスビット共有(SBS)は、計算コストを大幅に削減し、有望な性能を達成する。
SBS圧縮MobileNetV2は、Top-1の精度がわずか0.1%低下した22.6倍ビット演算(BOP)を実現する。
論文 参考訳(メタデータ) (2021-01-13T08:28:21Z) - UCP: Uniform Channel Pruning for Deep Convolutional Neural Networks
Compression and Acceleration [24.42067007684169]
深部CNNを創出するための一様チャネルプルーニング(UCP)手法を提案する。
それらに関連する畳み込みカーネルを含む重要でないチャネルは直接プルーニングされる。
CIFAR-10, CIFAR-100, ILSVRC-2012 を用いて画像分類を行った。
論文 参考訳(メタデータ) (2020-10-03T01:51:06Z) - TinyLSTMs: Efficient Neural Speech Enhancement for Hearing Aids [13.369813069254132]
モデル圧縮技術を用いて、大型ニューラルネットワークとバッテリ駆動型補聴器ハードウェアのギャップを埋める。
我々は,ウェイト/アクティベーションのプルーニングと整数量子化を用いて,RNN音声強調の有効性を初めて実証した。
我々のモデルは計算遅延が2.39msで、10msの目標と、以前の作業よりも351$times$である。
論文 参考訳(メタデータ) (2020-05-20T20:37:47Z) - OctSqueeze: Octree-Structured Entropy Model for LiDAR Compression [77.8842824702423]
本稿では,LiDAR点雲のメモリフットプリントを削減するための新しいディープ圧縮アルゴリズムを提案する。
本手法は,メモリフットプリントを低減するために,点間の間隔と構造的冗長性を利用する。
我々のアルゴリズムは、自動運転車などのアプリケーションにおいて、LiDARポイントのオンボードおよびオフボードストレージを減らすために使用できる。
論文 参考訳(メタデータ) (2020-05-14T17:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。