論文の概要: DBNET: DOA-driven beamforming network for end-to-end farfield sound
source separation
- arxiv url: http://arxiv.org/abs/2010.11566v1
- Date: Thu, 22 Oct 2020 09:52:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 07:52:22.636304
- Title: DBNET: DOA-driven beamforming network for end-to-end farfield sound
source separation
- Title(参考訳): DBNET:エンド・ツー・エンド遠距離音源分離のためのDOA駆動ビームフォーミングネットワーク
- Authors: Ali Aroudi and Sebastian Braun
- Abstract要約: 本稿では,エンド・ツー・エンドのソース分離のための指向性指向型ビームフォーミングネットワーク(DBnet)を提案する。
また,ポストマスキングネットワークを組み込んだDBnetのエンドツーエンド拡張も提案する。
実験の結果,畳み込み再帰型ポストマスキングネットワークを用いたDBnetの拡張は,最先端のソース分離法よりも優れていた。
- 参考スコア(独自算出の注目度): 20.200763595732912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many deep learning techniques are available to perform source separation and
reduce background noise. However, designing an end-to-end multi-channel source
separation method using deep learning and conventional acoustic signal
processing techniques still remains challenging. In this paper we propose a
direction-of-arrival-driven beamforming network (DBnet) consisting of
direction-of-arrival (DOA) estimation and beamforming layers for end-to-end
source separation. We propose to train DBnet using loss functions that are
solely based on the distances between the separated speech signals and the
target speech signals, without a need for the ground-truth DOAs of speakers. To
improve the source separation performance, we also propose end-to-end
extensions of DBnet which incorporate post masking networks. We evaluate the
proposed DBnet and its extensions on a very challenging dataset, targeting
realistic far-field sound source separation in reverberant and noisy
environments. The experimental results show that the proposed extended DBnet
using a convolutional-recurrent post masking network outperforms
state-of-the-art source separation methods.
- Abstract(参考訳): ソース分離とバックグラウンドノイズを低減するために、多くのディープラーニング技術が利用可能である。
しかし、ディープラーニングと従来の音響信号処理技術を用いたエンドツーエンドのマルチチャネル音源分離手法を設計することは依然として困難である。
本稿では,方向指向型ビームフォーミングネットワーク(DBnet)について,方向指向型ビームフォーミングネットワーク(DOA)とエンドツーエンドソース分離のためのビームフォーミング層(ビームフォーミング層)を提案する。
本稿では,分離した音声信号とターゲット音声信号との距離のみに基づく損失関数を用いてDBnetを訓練することを提案する。
また、ソース分離性能を向上させるため、ポストマスキングネットワークを組み込んだDBnetのエンドツーエンド拡張を提案する。
提案するdbnetとその拡張を非常に困難なデータセット上で評価し,残響・雑音環境における実環境からの音源分離を目標とした。
実験の結果,畳み込み再帰型ポストマスキングネットワークを用いたDBnetの拡張は,最先端のソース分離法よりも優れていた。
関連論文リスト
- A unified multichannel far-field speech recognition system: combining
neural beamforming with attention based end-to-end model [14.795953417531907]
本稿では,ニューラルビームフォーミングとトランスフォーマーをベースとしたリステン,スペル,アトンド(LAS)音声認識システムを組み合わせた多チャンネル遠距離音声認識システムを提案する。
提案手法は, 強いベースラインに比べて19.26%向上した。
論文 参考訳(メタデータ) (2024-01-05T07:11:13Z) - On Neural Architectures for Deep Learning-based Source Separation of
Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。
我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文 参考訳(メタデータ) (2023-03-11T16:29:13Z) - MIMO-DBnet: Multi-channel Input and Multiple Outputs DOA-aware
Beamforming Network for Speech Separation [55.533789120204055]
混合信号のみを用いた方向案内音声分離のためのエンドツーエンドビームフォーミングネットワークを提案する。
具体的には,複数チャネルの入力と複数出力アーキテクチャを設計し,各ソースの指向性に基づく埋め込みとビームフォーミング重みを推定する。
論文 参考訳(メタデータ) (2022-12-07T01:52:40Z) - Data-Driven Blind Synchronization and Interference Rejection for Digital
Communication Signals [98.95383921866096]
本研究では,データ駆動型深層学習手法の可能性について検討した。
本研究では,高分解能時間構造(非定常性)の取得が性能向上につながることを示す。
既製のNNと古典的検出と干渉除去の両方で改善可能なドメインインフォームドニューラルネットワーク(NN)の設計を提案する。
論文 参考訳(メタデータ) (2022-09-11T14:10:37Z) - Implicit Neural Spatial Filtering for Multichannel Source Separation in
the Waveform Domain [131.74762114632404]
モデルはエンドツーエンドで訓練され、空間処理を暗黙的に実行する。
提案したモデルを実世界のデータセット上で評価し,そのモデルがオラクルビームフォーマの性能と一致することを示す。
論文 参考訳(メタデータ) (2022-06-30T17:13:01Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Unsupervised Audio Source Separation using Generative Priors [43.35195236159189]
そこで本研究では,個々の音源から学習した生成的事前情報に基づく音源分離手法を提案する。
提案手法では,ソース固有の潜在空間を同時に探索し,構成源を効果的に回収する。
論文 参考訳(メタデータ) (2020-05-28T03:57:16Z) - Spatial and spectral deep attention fusion for multi-channel speech
separation using deep embedding features [60.20150317299749]
マルチチャネルディープクラスタリング(MDC)は、音声分離に優れた性能を得た。
本研究では,スペクトルおよび空間的特徴の重みを動的に制御し,それらを深く結合するディープ・アテンション・フュージョン法を提案する。
実験結果から,提案手法はMDCベースラインよりも優れ,理想的なバイナリマスク(IBM)よりも優れていた。
論文 参考訳(メタデータ) (2020-02-05T03:49:39Z) - Time-Domain Audio Source Separation Based on Wave-U-Net Combined with
Discrete Wavelet Transform [34.05660769694652]
離散ウェーブレット変換(DWT)に基づく時間領域音源分離手法を提案する。
提案手法は、最先端のディープニューラルネットワークであるWave-U-Netに基づいている。
論文 参考訳(メタデータ) (2020-01-28T06:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。