論文の概要: On the Role of Spatial, Spectral, and Temporal Processing for DNN-based
Non-linear Multi-channel Speech Enhancement
- arxiv url: http://arxiv.org/abs/2206.11181v1
- Date: Wed, 22 Jun 2022 15:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 16:33:57.371890
- Title: On the Role of Spatial, Spectral, and Temporal Processing for DNN-based
Non-linear Multi-channel Speech Enhancement
- Title(参考訳): DNNに基づく非線形多チャンネル音声強調における空間・スペクトル・時間処理の役割について
- Authors: Kristina Tesch, Nils-Hendrik Mohrmann, Timo Gerkmann
- Abstract要約: ディープニューラルネットワーク(DNN)を使用して、マルチチャネル音声強調のためのフィルタを直接学習することは、2つの重要な利点がある。
非線形空間フィルタリングは線形処理モデルから生じる潜在的な制約を克服することができる。
空間情報とテンポスペクトル情報の合同処理により、異なる情報源間の相互依存を利用することができる。
- 参考スコア(独自算出の注目度): 18.133635752982105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Employing deep neural networks (DNNs) to directly learn filters for
multi-channel speech enhancement has potentially two key advantages over a
traditional approach combining a linear spatial filter with an independent
tempo-spectral post-filter: 1) non-linear spatial filtering allows to overcome
potential restrictions originating from a linear processing model and 2) joint
processing of spatial and tempo-spectral information allows to exploit
interdependencies between different sources of information. A variety of
DNN-based non-linear filters have been proposed recently, for which good
enhancement performance is reported. However, little is known about the
internal mechanisms which turns network architecture design into a game of
chance. Therefore, in this paper, we perform experiments to better understand
the internal processing of spatial, spectral and temporal information by
DNN-based non-linear filters. On the one hand, our experiments in a difficult
speech extraction scenario confirm the importance of non-linear spatial
filtering, which outperforms an oracle linear spatial filter by 0.24 POLQA
score. On the other hand, we demonstrate that joint processing results in a
large performance gap of 0.4 POLQA score between network architectures
exploiting spectral versus temporal information besides spatial information.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)を用いて、マルチチャネル音声強調のためのフィルタを直接学習することは、線形空間フィルタと独立したテンポスペクトルポストフィルタを組み合わせる従来のアプローチに対して、2つの重要な利点がある。
1)非線形空間フィルタリングは線形処理モデルから生じる潜在的な制約を克服することができる。
2)空間情報とテンポスペクトル情報の共同処理により,情報ソース間の相互依存を活用できる。
近年,DNNをベースとした非線形フィルタが多数提案されており,性能向上が報告されている。
しかし、ネットワークアーキテクチャ設計を偶然のゲームに変える内部メカニズムについてはほとんど知られていない。
そこで本稿では,DNNに基づく非線形フィルタによる空間,スペクトル,時間情報の内部処理をよりよく理解するための実験を行う。
一方, 難解な音声抽出シナリオにおける実験により, オラクル線形空間フィルタを0.24 polqaスコアで上回る非線形空間フィルタリングの重要性が確認された。
一方,共同処理の結果,空間情報以外のスペクトル情報と時間情報を利用するネットワークアーキテクチャ間では0.4POLQAスコアが大きな性能差を生じることを示した。
関連論文リスト
- An Ensemble Score Filter for Tracking High-Dimensional Nonlinear Dynamical Systems [10.997994515823798]
本研究では,高次元非線形フィルタ問題に対するアンサンブルスコアフィルタ(EnSF)を提案する。
ニューラルネットワークをトレーニングしてスコア関数を近似する既存の拡散モデルとは異なり、トレーニング不要スコア推定を開発する。
EnSFは、最先端のLocal Ensemble Transform Kalman Filter法と比較して、驚くべきパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-09-02T16:48:02Z) - Multi-channel Speech Separation Using Spatially Selective Deep
Non-linear Filters [21.672683390080106]
複数話者による複数チャンネル分離タスクにおいて、混合音から各音声信号を復元することを目的とする。
本研究では,深層ニューラルネットワークを用いた空間選択的フィルタ(SSF)を提案する。
論文 参考訳(メタデータ) (2023-04-24T11:44:00Z) - Spatially Selective Deep Non-linear Filters for Speaker Extraction [21.422488450492434]
我々は任意の目標方向に操ることのできる深部結合型空間スペクトル非線形フィルタを開発した。
本研究では,本方式がベースライン方式よりも有効であることを示し,フィルタの柔軟性を性能的に向上させる。
論文 参考訳(メタデータ) (2022-11-04T12:54:06Z) - Insights into Deep Non-linear Filters for Improved Multi-channel Speech
Enhancement [21.422488450492434]
従来の設定では、線形空間フィルタリング(ビームフォーミング)と単一チャネル後フィルタリングを個別に行うのが一般的である。
深層ニューラルネットワーク(DNN)を用いて、共同空間およびテンポスペクトル非線形フィルタを学習する傾向がある。
論文 参考訳(メタデータ) (2022-06-27T13:54:14Z) - Space-Time Graph Neural Networks [104.55175325870195]
本研究では、時空間グラフニューラルネットワーク(ST-GNN)を導入し、時間変動ネットワークデータの時空間トポロジを共同処理する。
解析の結果,システムのネットワークトポロジと時間進化の変動はST-GNNの性能に大きく影響しないことがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:08:44Z) - Learning Versatile Convolution Filters for Efficient Visual Recognition [125.34595948003745]
本稿では,効率的な畳み込みニューラルネットワーク構築のための多目的フィルタを提案する。
本稿では,ネットワークの複雑性に関する理論的解析を行い,効率的な畳み込み手法を提案する。
ベンチマークデータセットとニューラルネットワークの実験結果は、我々の汎用フィルタが元のフィルタと同等の精度を達成できることを実証している。
論文 参考訳(メタデータ) (2021-09-20T06:07:14Z) - DNN-Based Topology Optimisation: Spatial Invariance and Neural Tangent
Kernel [7.106986689736828]
完全に接続されたニューラルネットワークによって生成される密度場を用いてSIMP法について検討し,その座標を入力とする。
我々は,DNNの使用が従来のSIMPのフィルタリング手法と類似したフィルタリング効果をもたらすことを示し,ニューラル・タンジェント・カーネル(NTK)によるフィルタについて述べる。
論文 参考訳(メタデータ) (2021-06-10T12:49:55Z) - Adaptive Latent Space Tuning for Non-Stationary Distributions [62.997667081978825]
本稿では,ディープエンコーダ・デコーダ方式cnnの低次元潜在空間の適応チューニング法を提案する。
粒子加速器における時間変動荷電粒子ビームの特性を予測するためのアプローチを実証する。
論文 参考訳(メタデータ) (2021-05-08T03:50:45Z) - Deep Cellular Recurrent Network for Efficient Analysis of Time-Series
Data with Spatial Information [52.635997570873194]
本研究では,空間情報を用いた複雑な多次元時系列データを処理するための新しいディープセルリカレントニューラルネットワーク(DCRNN)アーキテクチャを提案する。
提案するアーキテクチャは,文献に比較して,学習可能なパラメータをかなり少なくしつつ,最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-01-12T20:08:18Z) - Dependency Aware Filter Pruning [74.69495455411987]
重要でないフィルタを割ることは、推論コストを軽減するための効率的な方法である。
以前の作業は、その重み基準やそれに対応するバッチノームスケーリング要因に従ってフィルタをプルークする。
所望の空間性を達成するために,空間性誘導正規化を動的に制御する機構を提案する。
論文 参考訳(メタデータ) (2020-05-06T07:41:22Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。