論文の概要: Neural Speech Separation Using Spatially Distributed Microphones
- arxiv url: http://arxiv.org/abs/2004.13670v1
- Date: Tue, 28 Apr 2020 17:16:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 23:38:03.656512
- Title: Neural Speech Separation Using Spatially Distributed Microphones
- Title(参考訳): 空間分布マイクロホンを用いたニューラル音声分離
- Authors: Dongmei Wang, Zhuo Chen and Takuya Yoshioka
- Abstract要約: 本稿では,空間分布マイクロホンを用いたニューラルネットワークに基づく音声分離手法を提案する。
従来のマイクアレイの設定とは異なり、マイクの数や空間配置は事前に分かっていない。
音声認識実験の結果,提案手法はベースライン型マルチチャネル音声分離システムよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 19.242927805448154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a neural network based speech separation method using
spatially distributed microphones. Unlike with traditional microphone array
settings, neither the number of microphones nor their spatial arrangement is
known in advance, which hinders the use of conventional multi-channel speech
separation neural networks based on fixed size input. To overcome this, a novel
network architecture is proposed that interleaves inter-channel processing
layers and temporal processing layers. The inter-channel processing layers
apply a self-attention mechanism along the channel dimension to exploit the
information obtained with a varying number of microphones. The temporal
processing layers are based on a bidirectional long short term memory (BLSTM)
model and applied to each channel independently. The proposed network leverages
information across time and space by stacking these two kinds of layers
alternately. Our network estimates time-frequency (TF) masks for each speaker,
which are then used to generate enhanced speech signals either with TF masking
or beamforming. Speech recognition experimental results show that the proposed
method significantly outperforms baseline multi-channel speech separation
systems.
- Abstract(参考訳): 本稿では,空間分布マイクロホンを用いたニューラルネットワークに基づく音声分離手法を提案する。
従来のマイクロホンアレイ設定とは異なり、マイクロホンの数や空間配置は事前に分かっていないため、固定サイズ入力に基づく従来のマルチチャネル音声分離ニューラルネットワークの使用を妨げている。
これを克服するために,チャネル間処理層と時間的処理層をインターリーブする新しいネットワークアーキテクチャを提案する。
チャネル間処理層は、チャネル次元に沿って自己アテンション機構を適用し、様々なマイク数で得られる情報を利用する。
時間処理層は双方向長短期メモリ(BLSTM)モデルに基づいており、各チャネルに独立して適用される。
提案するネットワークは,2種類のレイヤを交互に積み重ねることで,時間と空間にまたがる情報を活用する。
我々のネットワークは、各話者の時間周波数マスクを推定し、TFマスキングまたはビームフォーミングを用いて拡張音声信号を生成する。
音声認識実験の結果,提案手法がベースラインのマルチチャネル音声分離システムを大きく上回ることがわかった。
関連論文リスト
- MIMO-DBnet: Multi-channel Input and Multiple Outputs DOA-aware
Beamforming Network for Speech Separation [55.533789120204055]
混合信号のみを用いた方向案内音声分離のためのエンドツーエンドビームフォーミングネットワークを提案する。
具体的には,複数チャネルの入力と複数出力アーキテクチャを設計し,各ソースの指向性に基づく埋め込みとビームフォーミング重みを推定する。
論文 参考訳(メタデータ) (2022-12-07T01:52:40Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Continuous Speech Separation with Ad Hoc Microphone Arrays [35.87274524040486]
音声分離は複数話者音声認識に有効であることが示された。
本稿では,このアプローチを連続音声分離に拡張する。
単一話者セグメントにおける音声問題を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T13:01:08Z) - Improved MVDR Beamforming Using LSTM Speech Models to Clean Spatial
Clustering Masks [14.942060304734497]
空間クラスタリング技術は、比較的任意のマイクロホン構成で大きなマルチチャネルノイズ低減を実現することができる。
LSTMニューラルネットワークは、単一チャネル入力のノイズから音声を認識するために訓練されているが、マルチチャネル記録における情報を完全に活用することは困難である。
本稿では,これら2つのアプローチを統合し,モデルベースEMソース分離局所化法(MESSL)により生成されたマスクを除去するためにLSTM音声モデルを訓練する。
論文 参考訳(メタデータ) (2020-12-02T22:35:00Z) - Enhancement of Spatial Clustering-Based Time-Frequency Masks using LSTM
Neural Networks [3.730592618611028]
我々はLSTMを用いて空間クラスタリングに基づく時間周波数マスクを強化する。
複数の単一チャネルLSTM-DNN音声強調器の信号モデリング性能と信号分離性能を両立させる。
カルディ自動音声認識装置の単語誤り率を用いて各システムの出力の可知性を評価する。
論文 参考訳(メタデータ) (2020-12-02T22:29:29Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - DNN-Based Distributed Multichannel Mask Estimation for Speech
Enhancement in Microphone Arrays [0.0]
本稿では,分散適応ノード固有信号推定手法をニューラルネットワークフレームワークに拡張することを提案する。
2つのノードの配列において、この追加信号がマスクを予測するために効率的に考慮され、より良い音声強調性能が得られることを示す。
論文 参考訳(メタデータ) (2020-02-13T11:08:00Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。