論文の概要: Resource-Efficient Speech Mask Estimation for Multi-Channel Speech
Enhancement
- arxiv url: http://arxiv.org/abs/2007.11477v1
- Date: Wed, 22 Jul 2020 14:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 23:39:10.288993
- Title: Resource-Efficient Speech Mask Estimation for Multi-Channel Speech
Enhancement
- Title(参考訳): マルチチャネル音声強調のための資源効率の良い音声マスク推定
- Authors: Lukas Pfeifenberger, Matthias Z\"ohrer, G\"unther Schindler, Wolfgang
Roth, Holger Fr\"oning and Franz Pernkopf
- Abstract要約: ディープニューラルネットワーク(DNN)に基づくマルチチャンネル音声強調のための資源効率の高い手法を提案する。
特に、低精度DNNを用いて、ノイズの多いマルチチャネルマイクロホン観測から音声マスクを推定する。
2重みの極端な場合と精度の低下により、実行時間とメモリフットプリントの大幅な削減が可能となる。
- 参考スコア(独自算出の注目度): 15.361841669377776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While machine learning techniques are traditionally resource intensive, we
are currently witnessing an increased interest in hardware and energy efficient
approaches. This need for resource-efficient machine learning is primarily
driven by the demand for embedded systems and their usage in ubiquitous
computing and IoT applications. In this article, we provide a
resource-efficient approach for multi-channel speech enhancement based on Deep
Neural Networks (DNNs). In particular, we use reduced-precision DNNs for
estimating a speech mask from noisy, multi-channel microphone observations.
This speech mask is used to obtain either the Minimum Variance Distortionless
Response (MVDR) or Generalized Eigenvalue (GEV) beamformer. In the extreme case
of binary weights and reduced precision activations, a significant reduction of
execution time and memory footprint is possible while still obtaining an audio
quality almost on par to single-precision DNNs and a slightly larger Word Error
Rate (WER) for single speaker scenarios using the WSJ0 speech corpus.
- Abstract(参考訳): 機械学習の技術は伝統的にリソース集約的だが、ハードウェアとエネルギー効率のアプローチへの関心が高まっている。
このリソース効率のよい機械学習の必要性は、組み込みシステムの需要と、ユビキタスコンピューティングやIoTアプリケーションでの利用が主な要因だ。
本稿では,ディープニューラルネットワーク(DNN)に基づくマルチチャネル音声強調のための資源効率の高い手法を提案する。
特に、低精度DNNを用いて、ノイズの多いマルチチャネルマイクロホン観測から音声マスクを推定する。
この音声マスクは、最小分散歪み無応答(MVDR)または一般化固有値(GEV)ビームフォーマを得るために用いられる。
2値重みの極端な場合と精度の低いアクティベーションでは、WSJ0音声コーパスを用いた単一の話者シナリオに対して、単精度のDNNとわずかに大きいワード誤り率(WER)にほぼ等しい音質を保ちながら、実行時間とメモリフットプリントの大幅な削減が可能となる。
関連論文リスト
- Resource-Efficient Speech Quality Prediction through Quantization Aware Training and Binary Activation Maps [4.002057316863807]
DNSMOSに基づく畳み込みアーキテクチャにおける音声品質予測のためのバイナリアクティベーションマップ(BAM)について検討する。
本稿では,量子化を意識した2値アクティベーションモデルとベースラインモデルの予測性能が一致することを示す。
提案手法は,ほぼすべてのドット積を和で置き換えつつ,推論中に25倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-07-05T15:15:00Z) - sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection
with Spiking Neural Networks [51.516451451719654]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。
本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。
SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-09T02:55:44Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Keyword spotting -- Detecting commands in speech using deep learning [2.709166684084394]
生波形をMel Frequency Cepstral Coefficients (MFCC)に変換することで特徴工学を実現する。
実験では, BiLSTM と Attention を用いた RNN が 93.9% の精度で最高の性能を達成した。
論文 参考訳(メタデータ) (2023-12-09T19:04:17Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Event Based Time-Vectors for auditory features extraction: a
neuromorphic approach for low power audio recognition [4.206844212918807]
教師なしの聴覚特徴認識が可能なニューロモルフィックアーキテクチャを提案する。
次に、GoogleのSpeech Commandsデータセットのサブセットでネットワークを検証する。
論文 参考訳(メタデータ) (2021-12-13T21:08:04Z) - Broadcasted Residual Learning for Efficient Keyword Spotting [7.335747584353902]
モデルサイズと計算負荷を小さくして高精度な放送残差学習手法を提案する。
また,放送残差学習に基づく新しいネットワークアーキテクチャ,BC-Residual Network(BC-ResNet)を提案する。
BC-ResNetsは、Googleの音声コマンドデータセット v1 と v2 で、最先端の98.0% と98.7% のトップ-1 の精度をそれぞれ達成している。
論文 参考訳(メタデータ) (2021-06-08T06:55:39Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - TinySpeech: Attention Condensers for Deep Speech Recognition Neural
Networks on Edge Devices [71.68436132514542]
エッジ上でのオンデバイス音声認識のための低フットプリント,高効率深層ニューラルネットワーク構築のためのアテンションコンデンサの概念を紹介する。
その有効性を説明するために,デバイス上での音声認識に適した低精度深層ニューラルネットワークTinySpeechを導入する。
論文 参考訳(メタデータ) (2020-08-10T16:34:52Z) - Self-attention encoding and pooling for speaker recognition [16.96341561111918]
本研究では,非固定長音声音声の識別話者埋め込みを実現するために,タンデム自己認識・プーリング(SAEP)機構を提案する。
SAEPは、テキストに依存しない話者検証に使用される話者埋め込みに、短時間の話者スペクトル特徴を符号化する。
このアプローチをVoxCeleb1と2のデータセットで評価した。
論文 参考訳(メタデータ) (2020-08-03T09:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。