論文の概要: TinyLSTMs: Efficient Neural Speech Enhancement for Hearing Aids
- arxiv url: http://arxiv.org/abs/2005.11138v1
- Date: Wed, 20 May 2020 20:37:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 05:24:21.874384
- Title: TinyLSTMs: Efficient Neural Speech Enhancement for Hearing Aids
- Title(参考訳): TinyLSTMs: 難聴者に対する効率的な音声強調
- Authors: Igor Fedorov, Marko Stamenovic, Carl Jensen, Li-Chia Yang, Ari
Mandell, Yiming Gan, Matthew Mattina, Paul N. Whatmough
- Abstract要約: モデル圧縮技術を用いて、大型ニューラルネットワークとバッテリ駆動型補聴器ハードウェアのギャップを埋める。
我々は,ウェイト/アクティベーションのプルーニングと整数量子化を用いて,RNN音声強調の有効性を初めて実証した。
我々のモデルは計算遅延が2.39msで、10msの目標と、以前の作業よりも351$times$である。
- 参考スコア(独自算出の注目度): 13.369813069254132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern speech enhancement algorithms achieve remarkable noise suppression by
means of large recurrent neural networks (RNNs). However, large RNNs limit
practical deployment in hearing aid hardware (HW) form-factors, which are
battery powered and run on resource-constrained microcontroller units (MCUs)
with limited memory capacity and compute capability. In this work, we use model
compression techniques to bridge this gap. We define the constraints imposed on
the RNN by the HW and describe a method to satisfy them. Although model
compression techniques are an active area of research, we are the first to
demonstrate their efficacy for RNN speech enhancement, using pruning and
integer quantization of weights/activations. We also demonstrate state update
skipping, which reduces the computational load. Finally, we conduct a
perceptual evaluation of the compressed models to verify audio quality on human
raters. Results show a reduction in model size and operations of 11.9$\times$
and 2.9$\times$, respectively, over the baseline for compressed models, without
a statistical difference in listening preference and only exhibiting a loss of
0.55dB SDR. Our model achieves a computational latency of 2.39ms, well within
the 10ms target and 351$\times$ better than previous work.
- Abstract(参考訳): 現代の音声強調アルゴリズムは、大きなリカレントニューラルネットワーク(RNN)を用いて顕著なノイズ抑圧を実現する。
しかし、大規模なRNNは、バッテリー駆動でメモリ容量と計算能力に制限のあるマイクロコントローラユニット(MCU)上で動作する補聴器ハードウェア(HW)フォームファクタの実用的展開を制限している。
本研究では,このギャップを埋めるためにモデル圧縮技術を用いる。
我々は、HWによってRNNに課される制約を定義し、それらを満たす方法を記述する。
モデル圧縮技術は研究の活発な領域であるが,重み/アクティベーションのプルーニングと整数量子化を用いて,RNN音声強調の有効性を初めて実証する。
また、状態更新スキップを実証し、計算負荷を削減する。
最後に,圧縮モデルの知覚的評価を行い,音声品質の検証を行った。
その結果、圧縮されたモデルのベースライン上で、それぞれ1.9$\times$と2.9$\times$のモデルサイズと操作が減少し、聴取好みの統計的差はなく、0.55dB SDRの損失しか示さなかった。
我々のモデルは計算遅延を2.39msで達成し、目標の10ミリ秒以内で351$\times$が以前の作業より優れている。
関連論文リスト
- GhostRNN: Reducing State Redundancy in RNN with Cheap Operations [66.14054138609355]
本稿では,効率的なRNNアーキテクチャであるGhostRNNを提案する。
KWSとSEタスクの実験により、提案されたGhostRNNはメモリ使用量(40%)と計算コストを大幅に削減し、性能は類似している。
論文 参考訳(メタデータ) (2024-11-20T11:37:14Z) - Real-time Speech Enhancement on Raw Signals with Deep State-space Modeling [1.0650780147044159]
ATENNuateは、オンライン生音声の効率向上のために構成された、シンプルなディープな状態空間オートエンコーダである。
我々は、VoiceBank + DEMANDとMicrosoft DNS1合成テストセットでaTENNuateをベンチマークする。
ネットワークは、PSSQスコア、パラメータカウント、MAC、レイテンシの点で、従来のリアルタイムデノナイズモデルを上回っている。
論文 参考訳(メタデータ) (2024-09-05T09:28:56Z) - Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Hybrid Neural Networks for On-device Directional Hearing [15.109811993590037]
DeepBeamは、従来のビームフォーマーとカスタム軽量ニューラルネットワークを組み合わせたハイブリッドモデルだ。
私たちのリアルタイムハイブリッドモデルは、低消費電力のウェアラブルデバイス用に設計されたモバイルCPU上で8ミリ秒で動作し、エンドツーエンドのレイテンシ17.5ミリ秒を実現しています。
論文 参考訳(メタデータ) (2021-12-11T01:29:12Z) - Tiny-CRNN: Streaming Wakeword Detection In A Low Footprint Setting [14.833049700174307]
ウェイクワード検出問題に適用したTiny-CRNN(Tiny Convolutional Recurrent Neural Network)モデルを提案する。
畳み込みニューラルネットワークモデルと比較して,250kパラメータ予算における偽アクセプションは,パラメータサイズを10%削減して25%削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-29T21:12:14Z) - Spatio-Temporal Pruning and Quantization for Low-latency Spiking Neural
Networks [6.011954485684313]
Spiking Neural Networks(SNN)は、従来のディープラーニング方法に代わる有望な選択肢です。
しかし、SNNの大きな欠点は、高い推論遅延である。
本稿では,SNNの空間的および時間的プルーニングを提案する。
論文 参考訳(メタデータ) (2021-04-26T12:50:58Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - REST: Robust and Efficient Neural Networks for Sleep Monitoring in the
Wild [62.36144064259933]
ニューラルネットワークの逆トレーニングとLipschitz定数の制御を通じて、両問題に同時に対処する新しい方法であるRESTを提案する。
私たちは、RESTがノイズの存在下で、オリジナルのフルサイズのモデルを大幅に上回る、ロバストで効率的なモデルを生成することを実証しています。
これらのモデルをスマートフォン上のAndroidアプリケーションにデプロイすることにより、RESTによってモデルが最大17倍のエネルギー削減と9倍高速な推論を達成することができることを定量的に観察する。
論文 参考訳(メタデータ) (2020-01-29T17:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。