論文の概要: Combining Spatial Clustering with LSTM Speech Models for Multichannel
Speech Enhancement
- arxiv url: http://arxiv.org/abs/2012.03388v1
- Date: Wed, 2 Dec 2020 22:37:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-29 22:37:41.489331
- Title: Combining Spatial Clustering with LSTM Speech Models for Multichannel
Speech Enhancement
- Title(参考訳): 多チャンネル音声強調のための空間クラスタリングとLSTM音声モデルの組み合わせ
- Authors: Felix Grezes, Zhaoheng Ni, Viet Anh Trinh, Michael Mandel
- Abstract要約: LSTMアーキテクチャを用いたリカレントニューラルネットワークは、大きな単一チャネルノイズ低減を実現することができる。
しかし、新しいマイク構成に一般化できる方法でマルチチャネル入力に適用する方法は明らかではない。
本稿では,空間分離性能と多チャンネル空間クラスタリングの汎用性を両立させる2つの手法を組み合わせる。
- 参考スコア(独自算出の注目度): 3.730592618611028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recurrent neural networks using the LSTM architecture can achieve significant
single-channel noise reduction. It is not obvious, however, how to apply them
to multi-channel inputs in a way that can generalize to new microphone
configurations. In contrast, spatial clustering techniques can achieve such
generalization, but lack a strong signal model. This paper combines the two
approaches to attain both the spatial separation performance and generality of
multichannel spatial clustering and the signal modeling performance of multiple
parallel single-channel LSTM speech enhancers. The system is compared to
several baselines on the CHiME3 dataset in terms of speech quality predicted by
the PESQ algorithm and word error rate of a recognizer trained on mis-matched
conditions, in order to focus on generalization. Our experiments show that by
combining the LSTM models with the spatial clustering, we reduce word error
rate by 4.6\% absolute (17.2\% relative) on the development set and 11.2\%
absolute (25.5\% relative) on test set compared with spatial clustering system,
and reduce by 10.75\% (32.72\% relative) on development set and 6.12\% absolute
(15.76\% relative) on test data compared with LSTM model.
- Abstract(参考訳): LSTMアーキテクチャを用いたリカレントニューラルネットワークは、大きな単一チャネルノイズ低減を実現することができる。
しかし、新しいマイクロフォンの構成に一般化できるような方法で、それらをマルチチャネル入力に適用する方法は明確ではない。
対照的に、空間クラスタリング技術はそのような一般化を達成することができるが、強い信号モデルがない。
本稿では,マルチチャネル空間クラスタリングの空間分離性能と一般性と,並列単一チャネルLSTM音声強調器の信号モデリング性能の両立を図った。
PESQアルゴリズムによって予測される音声品質や,不一致条件で訓練された認識者の単語誤り率の観点から,CHiME3データセットのベースラインを比較し,一般化に焦点を当てた。
実験により、lstmモデルと空間クラスタリングを組み合わせることで、開発セットにおける単語誤り率を4.6\%絶対値(1.2\%相対値)、空間クラスタリングシステムと比較してテストセット上で11.2\%絶対値(25.5\%相対値)、開発セットで10.75\%(32.72\%相対値)、lstmモデルと比較してテストデータで6.12\%絶対値(15.76\%相対値)に削減できることを示した。
関連論文リスト
- Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Exploring Self-Supervised Contrastive Learning of Spatial Sound Event
Representation [21.896817015593122]
MC-SimCLRは、ラベルのない空間オーディオから、共同スペクトルと空間表現を学習する。
本稿では,様々なレベルの音声特徴を付加するマルチレベルデータ拡張パイプラインを提案する。
その結果,学習表現上の線形層は,事象分類精度と局所化誤差の両方の観点から,教師付きモデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-27T18:23:03Z) - Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID [56.573905143954015]
本稿では, クラスタ間マッチングによるモダリティギャップを低減するための, クラスタマッチングに基づく新たな学習フレームワークを提案する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。
公開SYSU-MM01とRegDBデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-22T03:27:46Z) - Self-Learning Symmetric Multi-view Probabilistic Clustering [50.32622999323709]
マルチビュークラスタリング(MVC)は、複数の視点から知識を学ぶための多くの取り組みによって、大きな進歩を遂げている。
既存のほとんどのメソッドは適用できないか、あるいは不完全なMVCに追加の手順を必要とする。
自己学習対称多視点確率クラスタリングという,不完全かつ完全なMVCのための新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-12T08:27:03Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Improved MVDR Beamforming Using LSTM Speech Models to Clean Spatial
Clustering Masks [14.942060304734497]
空間クラスタリング技術は、比較的任意のマイクロホン構成で大きなマルチチャネルノイズ低減を実現することができる。
LSTMニューラルネットワークは、単一チャネル入力のノイズから音声を認識するために訓練されているが、マルチチャネル記録における情報を完全に活用することは困難である。
本稿では,これら2つのアプローチを統合し,モデルベースEMソース分離局所化法(MESSL)により生成されたマスクを除去するためにLSTM音声モデルを訓練する。
論文 参考訳(メタデータ) (2020-12-02T22:35:00Z) - Enhancement of Spatial Clustering-Based Time-Frequency Masks using LSTM
Neural Networks [3.730592618611028]
我々はLSTMを用いて空間クラスタリングに基づく時間周波数マスクを強化する。
複数の単一チャネルLSTM-DNN音声強調器の信号モデリング性能と信号分離性能を両立させる。
カルディ自動音声認識装置の単語誤り率を用いて各システムの出力の可知性を評価する。
論文 参考訳(メタデータ) (2020-12-02T22:29:29Z) - Cross-Utterance Language Models with Acoustic Error Sampling [1.376408511310322]
標準長短期メモリ (LSTM) LMへの入力を増強するために, CULM (Cross-utterance LM) を提案する。
トレーニングとテストタイムのミスマッチを低減するために,音響誤差サンプリング手法を提案する。
AMIデータセットとSwitchboardデータセットの両方で実施された実験では、CULMがLSTM LMベースラインWERより優れていることが示された。
論文 参考訳(メタデータ) (2020-08-19T17:40:11Z) - Multi-view Frequency LSTM: An Efficient Frontend for Automatic Speech
Recognition [4.753402561130792]
複数のFLSTMスタックの出力を異なるビューで組み合わせることで、シンプルで効率的な修正を行う。
本研究では,マルチビューFLSTM音響モデルにより,話者・音響環境の異なるシナリオに対して,単語誤り率(WER)が3~7%向上することを示す。
論文 参考訳(メタデータ) (2020-06-30T22:19:53Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。