論文の概要: Improved MVDR Beamforming Using LSTM Speech Models to Clean Spatial
Clustering Masks
- arxiv url: http://arxiv.org/abs/2012.02191v1
- Date: Wed, 2 Dec 2020 22:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-29 22:52:34.791836
- Title: Improved MVDR Beamforming Using LSTM Speech Models to Clean Spatial
Clustering Masks
- Title(参考訳): 空間クラスタリングマスクのためのlstm音声モデルを用いたmvdrビームフォーミングの改善
- Authors: Zhaoheng Ni, Felix Grezes, Viet Anh Trinh, Michael I. Mandel
- Abstract要約: 空間クラスタリング技術は、比較的任意のマイクロホン構成で大きなマルチチャネルノイズ低減を実現することができる。
LSTMニューラルネットワークは、単一チャネル入力のノイズから音声を認識するために訓練されているが、マルチチャネル記録における情報を完全に活用することは困難である。
本稿では,これら2つのアプローチを統合し,モデルベースEMソース分離局所化法(MESSL)により生成されたマスクを除去するためにLSTM音声モデルを訓練する。
- 参考スコア(独自算出の注目度): 14.942060304734497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial clustering techniques can achieve significant multi-channel noise
reduction across relatively arbitrary microphone configurations, but have
difficulty incorporating a detailed speech/noise model. In contrast, LSTM
neural networks have successfully been trained to recognize speech from noise
on single-channel inputs, but have difficulty taking full advantage of the
information in multi-channel recordings. This paper integrates these two
approaches, training LSTM speech models to clean the masks generated by the
Model-based EM Source Separation and Localization (MESSL) spatial clustering
method. By doing so, it attains both the spatial separation performance and
generality of multi-channel spatial clustering and the signal modeling
performance of multiple parallel single-channel LSTM speech enhancers. Our
experiments show that when our system is applied to the CHiME-3 dataset of
noisy tablet recordings, it increases speech quality as measured by the
Perceptual Evaluation of Speech Quality (PESQ) algorithm and reduces the word
error rate of the baseline CHiME-3 speech recognizer, as compared to the
default BeamformIt beamformer.
- Abstract(参考訳): 空間クラスタリング技術は、比較的任意のマイクロホン構成で大きなマルチチャネルノイズ低減を実現することができるが、詳細な音声/雑音モデルの導入は困難である。
対照的に、LSTMニューラルネットワークは単一チャネル入力のノイズから音声を認識するために訓練されているが、マルチチャネル記録においてその情報を完全に活用することは困難である。
本稿では,これら2つのアプローチを統合し,モデルベースEMソース分離局所化法(MESSL)により生成されたマスクを除去するためにLSTM音声モデルを訓練する。
これにより、マルチチャネル空間クラスタリングの空間分離性能と一般化性と、並列単一チャネルLSTM音声強調器の信号モデリング性能を両立させることができる。
実験の結果, ノイズの多いタブレット記録のCHiME-3データセットに適用すると, PESQ(Perceptual Evaluation of Speech Quality)アルゴリズムで測定された音声品質が向上し, ベースラインCHiME-3音声認識器の単語誤り率をデフォルトのBeamformItビームフォーマと比較して低減することがわかった。
関連論文リスト
- Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Exploring Self-Supervised Contrastive Learning of Spatial Sound Event
Representation [21.896817015593122]
MC-SimCLRは、ラベルのない空間オーディオから、共同スペクトルと空間表現を学習する。
本稿では,様々なレベルの音声特徴を付加するマルチレベルデータ拡張パイプラインを提案する。
その結果,学習表現上の線形層は,事象分類精度と局所化誤差の両方の観点から,教師付きモデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-27T18:23:03Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Combining Spatial Clustering with LSTM Speech Models for Multichannel
Speech Enhancement [3.730592618611028]
LSTMアーキテクチャを用いたリカレントニューラルネットワークは、大きな単一チャネルノイズ低減を実現することができる。
しかし、新しいマイク構成に一般化できる方法でマルチチャネル入力に適用する方法は明らかではない。
本稿では,空間分離性能と多チャンネル空間クラスタリングの汎用性を両立させる2つの手法を組み合わせる。
論文 参考訳(メタデータ) (2020-12-02T22:37:50Z) - Enhancement of Spatial Clustering-Based Time-Frequency Masks using LSTM
Neural Networks [3.730592618611028]
我々はLSTMを用いて空間クラスタリングに基づく時間周波数マスクを強化する。
複数の単一チャネルLSTM-DNN音声強調器の信号モデリング性能と信号分離性能を両立させる。
カルディ自動音声認識装置の単語誤り率を用いて各システムの出力の可知性を評価する。
論文 参考訳(メタデータ) (2020-12-02T22:29:29Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Neural Speech Separation Using Spatially Distributed Microphones [19.242927805448154]
本稿では,空間分布マイクロホンを用いたニューラルネットワークに基づく音声分離手法を提案する。
従来のマイクアレイの設定とは異なり、マイクの数や空間配置は事前に分かっていない。
音声認識実験の結果,提案手法はベースライン型マルチチャネル音声分離システムよりも有意に優れていた。
論文 参考訳(メタデータ) (2020-04-28T17:16:31Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。