Fugu-MT 論文翻訳(概要): Multi-channel Speech Separation Using Spatially Selective Deep Non-linear Filters

論文の概要: Multi-channel Speech Separation Using Spatially Selective Deep Non-linear Filters

arxiv url: http://arxiv.org/abs/2304.12023v1
Date: Mon, 24 Apr 2023 11:44:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-25 15:01:58.170891
Title: Multi-channel Speech Separation Using Spatially Selective Deep Non-linear Filters
Title（参考訳）: 空間選択的深部非線形フィルタを用いたマルチチャネル音声分離
Authors: Kristina Tesch and Timo Gerkmann
Abstract要約: 複数話者による複数チャンネル分離タスクにおいて、混合音から各音声信号を復元することを目的とする。本研究では,深層ニューラルネットワークを用いた空間選択的フィルタ(SSF)を提案する。
参考スコア（独自算出の注目度）: 21.422488450492434
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In a multi-channel separation task with multiple speakers, we aim to recover all individual speech signals from the mixture. In contrast to single-channel approaches, which rely on the different spectro-temporal characteristics of the speech signals, multi-channel approaches should additionally utilize the different spatial locations of the sources for a more powerful separation especially when the number of sources increases. To enhance the spatial processing in a multi-channel source separation scenario, in this work, we propose a deep neural network (DNN) based spatially selective filter (SSF) that can be spatially steered to extract the speaker of interest by initializing a recurrent neural network layer with the target direction. We compare the proposed SSF with a common end-to-end direct separation (DS) approach trained using utterance-wise permutation invariant training (PIT), which only implicitly learns to perform spatial filtering. We show that the SSF has a clear advantage over a DS approach with the same underlying network architecture when there are more than two speakers in the mixture, which can be attributed to a better use of the spatial information. Furthermore, we find that the SSF generalizes much better to additional noise sources that were not seen during training.
Abstract（参考訳）: 複数話者による複数チャンネル分離タスクにおいて、混合音から各音声信号を復元することを目的とする。音声信号の異なるスペクトル時間特性に依存する単一チャネルアプローチとは対照的に、特に音源数が増えると、複数のチャネルアプローチは音源の異なる空間的位置をより強力な分離のために利用すべきである。マルチチャネルソース分離シナリオにおける空間処理を強化するため,本研究では,対象方向の繰り返しニューラルネットワーク層を初期化することにより,空間的にステアリングして興味のある話者を抽出できるディープニューラルネットワーク(DNN)に基づく空間選択的フィルタ(SSF)を提案する。提案したSSFと、空間フィルタリングのみを暗黙的に学習する発話単位の置換不変トレーニング(PIT)を用いて訓練された共通エンドツーエンド直接分離(DS)アプローチを比較した。 SSF は,2人以上の話者が混在している場合,同じネットワークアーキテクチャを持つ DS アプローチに対して明らかな優位性を持つことを示す。さらに、SSFはトレーニング中に見られなかった付加的なノイズ源に対して、はるかに良く一般化していることがわかった。

関連論文リスト

On Neural Architectures for Deep Learning-based Source Separation of Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文参考訳（メタデータ） (2023-03-11T16:29:13Z)
MIMO-DBnet: Multi-channel Input and Multiple Outputs DOA-aware Beamforming Network for Speech Separation [55.533789120204055]
混合信号のみを用いた方向案内音声分離のためのエンドツーエンドビームフォーミングネットワークを提案する。具体的には,複数チャネルの入力と複数出力アーキテクチャを設計し,各ソースの指向性に基づく埋め込みとビームフォーミング重みを推定する。
論文参考訳（メタデータ） (2022-12-07T01:52:40Z)
Spatially Selective Deep Non-linear Filters for Speaker Extraction [21.422488450492434]
我々は任意の目標方向に操ることのできる深部結合型空間スペクトル非線形フィルタを開発した。本研究では,本方式がベースライン方式よりも有効であることを示し,フィルタの柔軟性を性能的に向上させる。
論文参考訳（メタデータ） (2022-11-04T12:54:06Z)
Implicit Neural Spatial Filtering for Multichannel Source Separation in the Waveform Domain [131.74762114632404]
モデルはエンドツーエンドで訓練され、空間処理を暗黙的に実行する。提案したモデルを実世界のデータセット上で評価し,そのモデルがオラクルビームフォーマの性能と一致することを示す。
論文参考訳（メタデータ） (2022-06-30T17:13:01Z)
Insights into Deep Non-linear Filters for Improved Multi-channel Speech Enhancement [21.422488450492434]
従来の設定では、線形空間フィルタリング(ビームフォーミング)と単一チャネル後フィルタリングを個別に行うのが一般的である。深層ニューラルネットワーク(DNN)を用いて、共同空間およびテンポスペクトル非線形フィルタを学習する傾向がある。
論文参考訳（メタデータ） (2022-06-27T13:54:14Z)
On the Role of Spatial, Spectral, and Temporal Processing for DNN-based Non-linear Multi-channel Speech Enhancement [18.133635752982105]
ディープニューラルネットワーク(DNN)を使用して、マルチチャネル音声強調のためのフィルタを直接学習することは、2つの重要な利点がある。非線形空間フィルタリングは線形処理モデルから生じる潜在的な制約を克服することができる。空間情報とテンポスペクトル情報の合同処理により、異なる情報源間の相互依存を利用することができる。
論文参考訳（メタデータ） (2022-06-22T15:42:44Z)
Stepwise-Refining Speech Separation Network via Fine-Grained Encoding in High-order Latent Domain [34.23260020137834]
本稿では,粗大な分離フレームワークに従うSRSSN(Stepwise-Refining Speech separation Network)を提案する。まず1次潜在領域を学び、符号化空間を定義し、粗い位相で大まかな分離を行う。その後、既存の潜伏領域の各基底関数に沿って新しい潜伏ドメインを学び、精製フェーズで高次潜伏ドメインを得る。
論文参考訳（メタデータ） (2021-10-10T13:21:16Z)
Sparse Multi-Family Deep Scattering Network [14.932318540666543]
DSN(Deep Scattering Network)の解釈可能性を活用した新しいアーキテクチャを提案する。 SMF-DSNは散乱係数の多様性を高めてDSNを強化し、(ii)非定常雑音に対するロバスト性を向上させる。
論文参考訳（メタデータ） (2020-12-14T16:06:14Z)
Deep Learning Based Antenna Selection for Channel Extrapolation in FDD Massive MIMO [54.54508321463112]
大規模なマルチインプット多重出力(MIMO)システムでは、多数のアンテナが正確なチャネル状態情報を取得する上で大きな課題となる。ニューラルネットワーク(NN)を用いて、アップリンクとダウンリンクチャネルデータセット間の固有の接続を捕捉し、アップリンクチャネル状態情報のサブセットからダウンリンクチャネルを外挿する。アンテナサブセット選択問題について検討し、最高のチャネル外挿を実現し、NNのデータサイズを小さくする。
論文参考訳（メタデータ） (2020-09-03T13:38:52Z)
Spatial and spectral deep attention fusion for multi-channel speech separation using deep embedding features [60.20150317299749]
マルチチャネルディープクラスタリング(MDC)は、音声分離に優れた性能を得た。本研究では,スペクトルおよび空間的特徴の重みを動的に制御し,それらを深く結合するディープ・アテンション・フュージョン法を提案する。実験結果から,提案手法はMDCベースラインよりも優れ,理想的なバイナリマスク(IBM)よりも優れていた。
論文参考訳（メタデータ） (2020-02-05T03:49:39Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。