論文の概要: Multi-microphone Complex Spectral Mapping for Utterance-wise and
Continuous Speech Separation
- arxiv url: http://arxiv.org/abs/2010.01703v2
- Date: Mon, 24 May 2021 15:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 04:09:52.498666
- Title: Multi-microphone Complex Spectral Mapping for Utterance-wise and
Continuous Speech Separation
- Title(参考訳): 発話・連続音声分離のためのマルチマイクロホン複合スペクトルマッピング
- Authors: Zhong-Qiu Wang and Peidong Wang and DeLiang Wang
- Abstract要約: 残響条件下での話者分離のためのマルチマイクロホン複合スペクトルマッピングを提案する。
本システムは,所定の形状に配置された固定数のマイクロホンに基づいて,室内インパルス応答のシミュレーションに基づいて学習する。
シミュレーションされたSMS-WSJコーパスと実記録したLibriCSSデータセット上で,最先端の分離性能が得られる。
- 参考スコア(独自算出の注目度): 79.63545132515188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose multi-microphone complex spectral mapping, a simple way of
applying deep learning for time-varying non-linear beamforming, for speaker
separation in reverberant conditions. We aim at both speaker separation and
dereverberation. Our study first investigates offline utterance-wise speaker
separation and then extends to block-online continuous speech separation (CSS).
Assuming a fixed array geometry between training and testing, we train deep
neural networks (DNN) to predict the real and imaginary (RI) components of
target speech at a reference microphone from the RI components of multiple
microphones. We then integrate multi-microphone complex spectral mapping with
minimum variance distortionless response (MVDR) beamforming and post-filtering
to further improve separation, and combine it with frame-level speaker counting
for block-online CSS. Although our system is trained on simulated room impulse
responses (RIR) based on a fixed number of microphones arranged in a given
geometry, it generalizes well to a real array with the same geometry.
State-of-the-art separation performance is obtained on the simulated two-talker
SMS-WSJ corpus and the real-recorded LibriCSS dataset.
- Abstract(参考訳): 残響条件下での話者分離に時間変化のないビームフォーミングに深層学習を適用したマルチマイクロホン複合スペクトルマッピングを提案する。
我々は話者分離と残響の両立を目指している。
本研究は,まずオフライン話者分離の検討を行い,その後,ブロック・オン・ライン連続音声分離(css)へ拡張する。
トレーニングとテストの間の固定配列幾何を仮定し、複数のマイクのRI成分から基準マイクにおけるターゲット音声のリアルおよび想像的(RI)成分を予測するためにディープニューラルネットワーク(DNN)を訓練する。
次に,マルチマイクロホン複合スペクトルマッピングと最小分散歪みレス応答(mvdr)ビームフォーミングとポストフィルタを統合し,分離をさらに改善し,ブロックオンラインcssのフレームレベル話者カウントと組み合わせる。
本システムは,所定の形状に配置されたマイクロホン数に基づいて,シミュレーション室インパルス応答(RIR)を訓練するが,同じ形状を持つ実列によく一般化する。
シミュレーションされたSMS-WSJコーパスと実記録したLibriCSSデータセット上で,最先端の分離性能が得られる。
関連論文リスト
- Online speaker diarization of meetings guided by speech separation [0.0]
重複した音声は、話者ダイアリゼーションシステムに問題があることで知られている。
長時間録音のオンライン話者ダイアリゼーションに適した音声分離誘導ダイアリゼーション方式を提案する。
論文 参考訳(メタデータ) (2024-01-30T09:09:22Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Multi-microphone Automatic Speech Segmentation in Meetings Based on
Circular Harmonics Features [0.0]
円形高調波領域(CH-DOA)の方向推定に基づく新しい空間的特徴セットを提案する。
AMIミーティングコーパスの実験では、CH-DOAは非活性化マイクロホンの場合の堅牢さを保ちながらセグメンテーションを改善することができる。
論文 参考訳(メタデータ) (2023-06-07T09:09:00Z) - UNSSOR: Unsupervised Neural Speech Separation by Leveraging
Over-determined Training Mixtures [60.879679764741624]
残響状態においては、各マイクは異なる場所で複数の話者の混合信号を取得する。
我々は、$textbfu$nsupervised $textbfn$euralのアルゴリズムUNSSORを提案する。
この損失は、教師なし話者の分離を促進することが示される。
論文 参考訳(メタデータ) (2023-05-31T17:28:02Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - Continuous Speech Separation with Ad Hoc Microphone Arrays [35.87274524040486]
音声分離は複数話者音声認識に有効であることが示された。
本稿では,このアプローチを連続音声分離に拡張する。
単一話者セグメントにおける音声問題を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T13:01:08Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。