論文の概要: Multi-channel Speech Separation Using Spatially Selective Deep
Non-linear Filters
- arxiv url: http://arxiv.org/abs/2304.12023v2
- Date: Tue, 21 Nov 2023 14:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 05:29:25.203837
- Title: Multi-channel Speech Separation Using Spatially Selective Deep
Non-linear Filters
- Title(参考訳): 空間選択的深部非線形フィルタを用いたマルチチャネル音声分離
- Authors: Kristina Tesch and Timo Gerkmann
- Abstract要約: 複数話者による複数チャンネル分離タスクにおいて、混合音から各音声信号を復元することを目的とする。
本研究では,深層ニューラルネットワークを用いた空間選択的フィルタ(SSF)を提案する。
- 参考スコア(独自算出の注目度): 21.672683390080106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a multi-channel separation task with multiple speakers, we aim to recover
all individual speech signals from the mixture. In contrast to single-channel
approaches, which rely on the different spectro-temporal characteristics of the
speech signals, multi-channel approaches should additionally utilize the
different spatial locations of the sources for a more powerful separation
especially when the number of sources increases. To enhance the spatial
processing in a multi-channel source separation scenario, in this work, we
propose a deep neural network (DNN) based spatially selective filter (SSF) that
can be spatially steered to extract the speaker of interest by initializing a
recurrent neural network layer with the target direction. We compare the
proposed SSF with a common end-to-end direct separation (DS) approach trained
using utterance-wise permutation invariant training (PIT), which only
implicitly learns to perform spatial filtering. We show that the SSF has a
clear advantage over a DS approach with the same underlying network
architecture when there are more than two speakers in the mixture, which can be
attributed to a better use of the spatial information. Furthermore, we find
that the SSF generalizes much better to additional noise sources that were not
seen during training and to scenarios with speakers positioned at a similar
angle.
- Abstract(参考訳): 複数話者による複数チャンネル分離タスクにおいて、混合音から各音声信号を復元することを目的とする。
音声信号の異なるスペクトル時間特性に依存する単一チャネルアプローチとは対照的に、特に音源数が増えると、複数のチャネルアプローチは音源の異なる空間的位置をより強力な分離のために利用すべきである。
マルチチャネルソース分離シナリオにおける空間処理を強化するため,本研究では,対象方向の繰り返しニューラルネットワーク層を初期化することにより,空間的にステアリングして興味のある話者を抽出できるディープニューラルネットワーク(DNN)に基づく空間選択的フィルタ(SSF)を提案する。
提案したSSFと、空間フィルタリングのみを暗黙的に学習する発話単位の置換不変トレーニング(PIT)を用いて訓練された共通エンドツーエンド直接分離(DS)アプローチを比較した。
SSF は,2人以上の話者が混在している場合,同じネットワークアーキテクチャを持つ DS アプローチに対して明らかな優位性を持つことを示す。
さらに, ssfは, 訓練中に見られなかった追加の雑音源や, 話者が同様の角度にある場合のシナリオに対して, はるかに汎用的であることがわかった。
関連論文リスト
- On Neural Architectures for Deep Learning-based Source Separation of
Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。
我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文 参考訳(メタデータ) (2023-03-11T16:29:13Z) - MIMO-DBnet: Multi-channel Input and Multiple Outputs DOA-aware
Beamforming Network for Speech Separation [55.533789120204055]
混合信号のみを用いた方向案内音声分離のためのエンドツーエンドビームフォーミングネットワークを提案する。
具体的には,複数チャネルの入力と複数出力アーキテクチャを設計し,各ソースの指向性に基づく埋め込みとビームフォーミング重みを推定する。
論文 参考訳(メタデータ) (2022-12-07T01:52:40Z) - Spatially Selective Deep Non-linear Filters for Speaker Extraction [21.422488450492434]
我々は任意の目標方向に操ることのできる深部結合型空間スペクトル非線形フィルタを開発した。
本研究では,本方式がベースライン方式よりも有効であることを示し,フィルタの柔軟性を性能的に向上させる。
論文 参考訳(メタデータ) (2022-11-04T12:54:06Z) - Implicit Neural Spatial Filtering for Multichannel Source Separation in
the Waveform Domain [131.74762114632404]
モデルはエンドツーエンドで訓練され、空間処理を暗黙的に実行する。
提案したモデルを実世界のデータセット上で評価し,そのモデルがオラクルビームフォーマの性能と一致することを示す。
論文 参考訳(メタデータ) (2022-06-30T17:13:01Z) - Insights into Deep Non-linear Filters for Improved Multi-channel Speech
Enhancement [21.422488450492434]
従来の設定では、線形空間フィルタリング(ビームフォーミング)と単一チャネル後フィルタリングを個別に行うのが一般的である。
深層ニューラルネットワーク(DNN)を用いて、共同空間およびテンポスペクトル非線形フィルタを学習する傾向がある。
論文 参考訳(メタデータ) (2022-06-27T13:54:14Z) - On the Role of Spatial, Spectral, and Temporal Processing for DNN-based
Non-linear Multi-channel Speech Enhancement [18.133635752982105]
ディープニューラルネットワーク(DNN)を使用して、マルチチャネル音声強調のためのフィルタを直接学習することは、2つの重要な利点がある。
非線形空間フィルタリングは線形処理モデルから生じる潜在的な制約を克服することができる。
空間情報とテンポスペクトル情報の合同処理により、異なる情報源間の相互依存を利用することができる。
論文 参考訳(メタデータ) (2022-06-22T15:42:44Z) - Stepwise-Refining Speech Separation Network via Fine-Grained Encoding in
High-order Latent Domain [34.23260020137834]
本稿では,粗大な分離フレームワークに従うSRSSN(Stepwise-Refining Speech separation Network)を提案する。
まず1次潜在領域を学び、符号化空間を定義し、粗い位相で大まかな分離を行う。
その後、既存の潜伏領域の各基底関数に沿って新しい潜伏ドメインを学び、精製フェーズで高次潜伏ドメインを得る。
論文 参考訳(メタデータ) (2021-10-10T13:21:16Z) - Sparse Multi-Family Deep Scattering Network [14.932318540666543]
DSN(Deep Scattering Network)の解釈可能性を活用した新しいアーキテクチャを提案する。
SMF-DSNは散乱係数の多様性を高めてDSNを強化し、(ii)非定常雑音に対するロバスト性を向上させる。
論文 参考訳(メタデータ) (2020-12-14T16:06:14Z) - Deep Learning Based Antenna Selection for Channel Extrapolation in FDD
Massive MIMO [54.54508321463112]
大規模なマルチインプット多重出力(MIMO)システムでは、多数のアンテナが正確なチャネル状態情報を取得する上で大きな課題となる。
ニューラルネットワーク(NN)を用いて、アップリンクとダウンリンクチャネルデータセット間の固有の接続を捕捉し、アップリンクチャネル状態情報のサブセットからダウンリンクチャネルを外挿する。
アンテナサブセット選択問題について検討し、最高のチャネル外挿を実現し、NNのデータサイズを小さくする。
論文 参考訳(メタデータ) (2020-09-03T13:38:52Z) - Spatial and spectral deep attention fusion for multi-channel speech
separation using deep embedding features [60.20150317299749]
マルチチャネルディープクラスタリング(MDC)は、音声分離に優れた性能を得た。
本研究では,スペクトルおよび空間的特徴の重みを動的に制御し,それらを深く結合するディープ・アテンション・フュージョン法を提案する。
実験結果から,提案手法はMDCベースラインよりも優れ,理想的なバイナリマスク(IBM)よりも優れていた。
論文 参考訳(メタデータ) (2020-02-05T03:49:39Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。