論文の概要: Enhancement of Spatial Clustering-Based Time-Frequency Masks using LSTM
Neural Networks
- arxiv url: http://arxiv.org/abs/2012.01576v1
- Date: Wed, 2 Dec 2020 22:29:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-29 23:07:56.106163
- Title: Enhancement of Spatial Clustering-Based Time-Frequency Masks using LSTM
Neural Networks
- Title(参考訳): lstmニューラルネットワークを用いた空間クラスタリングに基づく時間周波数マスクの強化
- Authors: Felix Grezes, Zhaoheng Ni, Viet Anh Trinh, Michael Mandel
- Abstract要約: 我々はLSTMを用いて空間クラスタリングに基づく時間周波数マスクを強化する。
複数の単一チャネルLSTM-DNN音声強調器の信号モデリング性能と信号分離性能を両立させる。
カルディ自動音声認識装置の単語誤り率を用いて各システムの出力の可知性を評価する。
- 参考スコア(独自算出の注目度): 3.730592618611028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have shown that Deep Recurrent Neural Networks using the LSTM
architecture can achieve strong single-channel speech enhancement by estimating
time-frequency masks. However, these models do not naturally generalize to
multi-channel inputs from varying microphone configurations. In contrast,
spatial clustering techniques can achieve such generalization but lack a strong
signal model. Our work proposes a combination of the two approaches. By using
LSTMs to enhance spatial clustering based time-frequency masks, we achieve both
the signal modeling performance of multiple single-channel LSTM-DNN speech
enhancers and the signal separation performance and generality of multi-channel
spatial clustering. We compare our proposed system to several baselines on the
CHiME-3 dataset. We evaluate the quality of the audio from each system using
SDR from the BSS\_eval toolkit and PESQ. We evaluate the intelligibility of the
output of each system using word error rate from a Kaldi automatic speech
recognizer.
- Abstract(参考訳): 近年の研究では、LSTMアーキテクチャを用いたディープリカレントニューラルネットワークが、時間周波数マスクを推定することにより、強い単一チャネル音声強調を実現することが示されている。
しかし、これらのモデルは様々なマイクロホン構成からのマルチチャネル入力に自然に一般化するわけではない。
対照的に、空間クラスタリング技術はそのような一般化を達成することができるが、強い信号モデルがない。
我々の研究は2つのアプローチの組み合わせを提案する。
LSTMを用いて空間クラスタリングに基づく時間周波数マスクを強化することにより、複数の単一チャネルLSTM-DNN音声強調器の信号モデリング性能と、マルチチャネル空間クラスタリングの信号分離性能と一般性の両方を実現する。
提案システムとCHiME-3データセットのベースラインを比較した。
BSS\_eval ツールキットと PESQ の SDR を用いて,各システムからの音声の質を評価する。
本稿では、kaldi自動音声認識装置からの単語誤り率を用いて、各システム出力の識別性を評価する。
関連論文リスト
- RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - On Neural Architectures for Deep Learning-based Source Separation of
Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。
我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文 参考訳(メタデータ) (2023-03-11T16:29:13Z) - Learning to Estimate RIS-Aided mmWave Channels [50.15279409856091]
そこでは,観測観測のために,既知の基地局とRIS位相制御行列を併用したアップリンクチャネル推定手法を提案する。
推定性能を向上し, トレーニングオーバーヘッドを低減するため, 深部展開法において, mmWaveチャネルの固有チャネル幅を生かした。
提案したディープ・アンフォールディング・ネットワーク・アーキテクチャは,トレーニングオーバーヘッドが比較的小さく,オンライン計算の複雑さも比較的小さく,最小二乗法(LS)法より優れていることが確認された。
論文 参考訳(メタデータ) (2021-07-27T06:57:56Z) - Combining Spatial Clustering with LSTM Speech Models for Multichannel
Speech Enhancement [3.730592618611028]
LSTMアーキテクチャを用いたリカレントニューラルネットワークは、大きな単一チャネルノイズ低減を実現することができる。
しかし、新しいマイク構成に一般化できる方法でマルチチャネル入力に適用する方法は明らかではない。
本稿では,空間分離性能と多チャンネル空間クラスタリングの汎用性を両立させる2つの手法を組み合わせる。
論文 参考訳(メタデータ) (2020-12-02T22:37:50Z) - Improved MVDR Beamforming Using LSTM Speech Models to Clean Spatial
Clustering Masks [14.942060304734497]
空間クラスタリング技術は、比較的任意のマイクロホン構成で大きなマルチチャネルノイズ低減を実現することができる。
LSTMニューラルネットワークは、単一チャネル入力のノイズから音声を認識するために訓練されているが、マルチチャネル記録における情報を完全に活用することは困難である。
本稿では,これら2つのアプローチを統合し,モデルベースEMソース分離局所化法(MESSL)により生成されたマスクを除去するためにLSTM音声モデルを訓練する。
論文 参考訳(メタデータ) (2020-12-02T22:35:00Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Multi-view Frequency LSTM: An Efficient Frontend for Automatic Speech
Recognition [4.753402561130792]
複数のFLSTMスタックの出力を異なるビューで組み合わせることで、シンプルで効率的な修正を行う。
本研究では,マルチビューFLSTM音響モデルにより,話者・音響環境の異なるシナリオに対して,単語誤り率(WER)が3~7%向上することを示す。
論文 参考訳(メタデータ) (2020-06-30T22:19:53Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Neural Speech Separation Using Spatially Distributed Microphones [19.242927805448154]
本稿では,空間分布マイクロホンを用いたニューラルネットワークに基づく音声分離手法を提案する。
従来のマイクアレイの設定とは異なり、マイクの数や空間配置は事前に分かっていない。
音声認識実験の結果,提案手法はベースライン型マルチチャネル音声分離システムよりも有意に優れていた。
論文 参考訳(メタデータ) (2020-04-28T17:16:31Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。