論文の概要: On End-to-end Multi-channel Time Domain Speech Separation in Reverberant
Environments
- arxiv url: http://arxiv.org/abs/2011.05958v1
- Date: Wed, 11 Nov 2020 18:25:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 00:25:26.965682
- Title: On End-to-end Multi-channel Time Domain Speech Separation in Reverberant
Environments
- Title(参考訳): 残響環境におけるエンドツーエンドのマルチチャンネル時間領域音声分離について
- Authors: Jisi Zhang, Catalin Zorila, Rama Doddipatla, Jon Barker
- Abstract要約: 本稿では,残響環境におけるマルチチャンネル時間領域音声分離手法を提案する。
完全な畳み込みニューラルネットワーク構造は、複数のマイク記録から直接音声を分離するために使われてきた。
残響が空間的特徴抽出に与える影響を低減するため, 残響前処理法が適用された。
- 参考スコア(独自算出の注目度): 33.79711018198589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a new method for multi-channel time domain speech
separation in reverberant environments. A fully-convolutional neural network
structure has been used to directly separate speech from multiple microphone
recordings, with no need of conventional spatial feature extraction. To reduce
the influence of reverberation on spatial feature extraction, a dereverberation
pre-processing method has been applied to further improve the separation
performance. A spatialized version of wsj0-2mix dataset has been simulated to
evaluate the proposed system. Both source separation and speech recognition
performance of the separated signals have been evaluated objectively.
Experiments show that the proposed fully-convolutional network improves the
source separation metric and the word error rate (WER) by more than 13% and 50%
relative, respectively, over a reference system with conventional features.
Applying dereverberation as pre-processing to the proposed system can further
reduce the WER by 29% relative using an acoustic model trained on clean and
reverberated data.
- Abstract(参考訳): 本稿では,残響環境におけるマルチチャネル時間領域音声分離手法を提案する。
完全畳み込みニューラルネットワーク構造は、従来の空間的特徴抽出を必要とせず、複数のマイクロホン録音から音声を直接分離するために用いられてきた。
残響が空間的特徴抽出に与える影響を低減するために, 残響前処理法を適用し, 分離性能をさらに向上させた。
wsj0-2mixデータセットの空間化バージョンをシミュレーションして提案システムの評価を行った。
分離信号の音源分離と音声認識性能は客観的に評価されている。
実験の結果,提案した完全畳み込みネットワークは,従来の特徴を持つ参照システムに対して,それぞれ13%以上,50%以上の単語誤り率(WER)を向上することがわかった。
提案システムにデバーベレーションを前処理として適用することにより、クリーンデータと残響データに基づいて訓練された音響モデルを用いてWERをさらに29%削減することができる。
関連論文リスト
- Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Stepwise-Refining Speech Separation Network via Fine-Grained Encoding in
High-order Latent Domain [34.23260020137834]
本稿では,粗大な分離フレームワークに従うSRSSN(Stepwise-Refining Speech separation Network)を提案する。
まず1次潜在領域を学び、符号化空間を定義し、粗い位相で大まかな分離を行う。
その後、既存の潜伏領域の各基底関数に沿って新しい潜伏ドメインを学び、精製フェーズで高次潜伏ドメインを得る。
論文 参考訳(メタデータ) (2021-10-10T13:21:16Z) - Blind Room Parameter Estimation Using Multiple-Multichannel Speech
Recordings [37.145413836886455]
部屋の幾何学的パラメータや音響的パラメータを知ることは、オーディオ拡張現実、音声のデバーベレーション、音声法医学などの応用に有用である。
室内の総表面積,体積,および周波数依存残響時間と平均表面吸収を共同で推定する問題について検討した。
単一チャネルとチャネル間キューの両方を活用する新しい畳み込みニューラルネットワークアーキテクチャを提案し、大規模で現実的なシミュレーションデータセットでトレーニングする。
論文 参考訳(メタデータ) (2021-07-29T08:51:49Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Time-Domain Speech Extraction with Spatial Information and Multi Speaker
Conditioning Mechanism [27.19635746008699]
混合物から複数のクリーンな個人ソースを同時に抽出する,新しいマルチチャネル音声抽出システムを提案する。
提案手法は改良されたマルチチャネル時間領域音声分離ネットワーク上に構築される。
2チャンネル WHAMR! データを用いた実験により, 強いマルチチャネルベースライン上でのソース分離性能を9%向上することを確認した。
論文 参考訳(メタデータ) (2021-02-07T10:11:49Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。