論文の概要: Insights into Deep Non-linear Filters for Improved Multi-channel Speech
Enhancement
- arxiv url: http://arxiv.org/abs/2206.13310v1
- Date: Mon, 27 Jun 2022 13:54:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 17:16:46.841798
- Title: Insights into Deep Non-linear Filters for Improved Multi-channel Speech
Enhancement
- Title(参考訳): マルチチャネル音声強調のための深部非線形フィルタの検討
- Authors: Kristina Tesch, Timo Gerkmann
- Abstract要約: 従来の設定では、線形空間フィルタリング(ビームフォーミング)と単一チャネル後フィルタリングを個別に行うのが一般的である。
深層ニューラルネットワーク(DNN)を用いて、共同空間およびテンポスペクトル非線形フィルタを学習する傾向がある。
- 参考スコア(独自算出の注目度): 21.422488450492434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The key advantage of using multiple microphones for speech enhancement is
that spatial filtering can be used to complement the tempo-spectral processing.
In a traditional setting, linear spatial filtering (beamforming) and
single-channel post-filtering are commonly performed separately. In contrast,
there is a trend towards employing deep neural networks (DNNs) to learn a joint
spatial and tempo-spectral non-linear filter, which means that the restriction
of a linear processing model and that of a separate processing of spatial and
tempo-spectral information can potentially be overcome. However, the internal
mechanisms that lead to good performance of such data-driven filters for
multi-channel speech enhancement are not well understood. Therefore, in this
work, we analyse the properties of a non-linear spatial filter realized by a
DNN as well as its interdependency with temporal and spectral processing by
carefully controlling the information sources (spatial, spectral, and temporal)
available to the network. We confirm the superiority of a non-linear spatial
processing model, which outperforms an oracle linear spatial filter in a
challenging speaker extraction scenario for a low number of microphones by 0.24
POLQA score. Our analyses reveal that in particular spectral information should
be processed jointly with spatial information as this increases the spatial
selectivity of the filter. Our systematic evaluation then leads to a simple
network architecture, that outperforms state-of-the-art network architectures
on a speaker extraction task by 0.22 POLQA score and by 0.32 POLQA score on the
CHiME3 data.
- Abstract(参考訳): 音声強調のために複数のマイクを使用する利点は、空間フィルタリングを用いてテンポスペクトル処理を補完できる点である。
従来の構成では、線形空間フィルタリング (beamforming) と単一チャネルのポストフィルタリングは別々に行われる。
対照的に、ディープニューラルネットワーク(DNN)を用いて、線形処理モデルの制約と、空間およびテンポスペクトル情報の分離処理の制限を克服することができる、共同空間およびテンポスペクトル非線形フィルタを学習する傾向がある。
しかし、マルチチャネル音声強調のためのデータ駆動フィルタの性能向上につながる内部メカニズムはよく理解されていない。
そこで本研究では,DNNが実現した非線形空間フィルタの特性と,その時間的およびスペクトル的処理との相互依存性を,ネットワークで利用可能な情報ソース(空間的,スペクトル的,時間的)を慎重に制御することによって解析する。
我々は、低数のマイクロホンに対して0.24 POLQAスコアで挑戦的な話者抽出シナリオにおいて、オラクル線形空間フィルタよりも優れた非線形空間処理モデルの優位性を確認する。
分析の結果,フィルタの空間選択性を高めるため,特にスペクトル情報を空間情報と併用して処理すべきであることが判明した。
提案手法は,話者抽出タスクにおける最先端ネットワークアーキテクチャを0.22 POLQA,CHiME3データにおける0.32 POLQAスコアで上回る,シンプルなネットワークアーキテクチャを実現する。
関連論文リスト
- An Ensemble Score Filter for Tracking High-Dimensional Nonlinear Dynamical Systems [10.997994515823798]
本研究では,高次元非線形フィルタ問題に対するアンサンブルスコアフィルタ(EnSF)を提案する。
ニューラルネットワークをトレーニングしてスコア関数を近似する既存の拡散モデルとは異なり、トレーニング不要スコア推定を開発する。
EnSFは、最先端のLocal Ensemble Transform Kalman Filter法と比較して、驚くべきパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-09-02T16:48:02Z) - Multi-channel Speech Separation Using Spatially Selective Deep
Non-linear Filters [21.672683390080106]
複数話者による複数チャンネル分離タスクにおいて、混合音から各音声信号を復元することを目的とする。
本研究では,深層ニューラルネットワークを用いた空間選択的フィルタ(SSF)を提案する。
論文 参考訳(メタデータ) (2023-04-24T11:44:00Z) - Spatially Selective Deep Non-linear Filters for Speaker Extraction [21.422488450492434]
我々は任意の目標方向に操ることのできる深部結合型空間スペクトル非線形フィルタを開発した。
本研究では,本方式がベースライン方式よりも有効であることを示し,フィルタの柔軟性を性能的に向上させる。
論文 参考訳(メタデータ) (2022-11-04T12:54:06Z) - On the Role of Spatial, Spectral, and Temporal Processing for DNN-based
Non-linear Multi-channel Speech Enhancement [18.133635752982105]
ディープニューラルネットワーク(DNN)を使用して、マルチチャネル音声強調のためのフィルタを直接学習することは、2つの重要な利点がある。
非線形空間フィルタリングは線形処理モデルから生じる潜在的な制約を克服することができる。
空間情報とテンポスペクトル情報の合同処理により、異なる情報源間の相互依存を利用することができる。
論文 参考訳(メタデータ) (2022-06-22T15:42:44Z) - Computational Doob's h-transforms for Online Filtering of Discretely
Observed Diffusions [65.74069050283998]
本研究では,Doobの$h$-transformsを近似する計算フレームワークを提案する。
提案手法は、最先端粒子フィルタよりも桁違いに効率的である。
論文 参考訳(メタデータ) (2022-06-07T15:03:05Z) - Three-Way Deep Neural Network for Radio Frequency Map Generation and
Source Localization [67.93423427193055]
空間、時間、周波数領域にわたる無線スペクトルのモニタリングは、5Gと6G以上の通信技術において重要な特徴となる。
本稿では,空間領域全体にわたる不規則分散計測を補間するGAN(Generative Adversarial Network)機械学習モデルを提案する。
論文 参考訳(メタデータ) (2021-11-23T22:25:10Z) - Learning Versatile Convolution Filters for Efficient Visual Recognition [125.34595948003745]
本稿では,効率的な畳み込みニューラルネットワーク構築のための多目的フィルタを提案する。
本稿では,ネットワークの複雑性に関する理論的解析を行い,効率的な畳み込み手法を提案する。
ベンチマークデータセットとニューラルネットワークの実験結果は、我々の汎用フィルタが元のフィルタと同等の精度を達成できることを実証している。
論文 参考訳(メタデータ) (2021-09-20T06:07:14Z) - Sparsistent filtering of comovement networks from high-dimensional data [0.0]
本稿では,構成ノードの動的挙動から大次元ネットワークをフィルタリングする新しい手法を提案する。
実現したネットワークの重要トポロジ特性の保存に依存するよく知られたネットワークフィルタとは対照的に,本手法ではスペクトルを基本対象として扱い,スペクトル特性の保存を行う。
論文 参考訳(メタデータ) (2021-01-22T15:44:41Z) - Deep Cellular Recurrent Network for Efficient Analysis of Time-Series
Data with Spatial Information [52.635997570873194]
本研究では,空間情報を用いた複雑な多次元時系列データを処理するための新しいディープセルリカレントニューラルネットワーク(DCRNN)アーキテクチャを提案する。
提案するアーキテクチャは,文献に比較して,学習可能なパラメータをかなり少なくしつつ,最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-01-12T20:08:18Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。