論文の概要: MIMO-DBnet: Multi-channel Input and Multiple Outputs DOA-aware
Beamforming Network for Speech Separation
- arxiv url: http://arxiv.org/abs/2212.03401v1
- Date: Wed, 7 Dec 2022 01:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 17:28:03.356048
- Title: MIMO-DBnet: Multi-channel Input and Multiple Outputs DOA-aware
Beamforming Network for Speech Separation
- Title(参考訳): MIMO-DBnet:音声分離のためのマルチチャネル入力と複数出力DOA対応ビームフォーミングネットワーク
- Authors: Yanjie Fu, Haoran Yin, Meng Ge, Longbiao Wang, Gaoyan Zhang, Jianwu
Dang, Chengyun Deng, Fei Wang
- Abstract要約: 混合信号のみを用いた方向案内音声分離のためのエンドツーエンドビームフォーミングネットワークを提案する。
具体的には,複数チャネルの入力と複数出力アーキテクチャを設計し,各ソースの指向性に基づく埋め込みとビームフォーミング重みを推定する。
- 参考スコア(独自算出の注目度): 55.533789120204055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, many deep learning based beamformers have been proposed for
multi-channel speech separation. Nevertheless, most of them rely on extra cues
known in advance, such as speaker feature, face image or directional
information. In this paper, we propose an end-to-end beamforming network for
direction guided speech separation given merely the mixture signal, namely
MIMO-DBnet. Specifically, we design a multi-channel input and multiple outputs
architecture to predict the direction-of-arrival based embeddings and
beamforming weights for each source. The precisely estimated directional
embedding provides quite effective spatial discrimination guidance for the
neural beamformer to offset the effect of phase wrapping, thus allowing more
accurate reconstruction of two sources' speech signals. Experiments show that
our proposed MIMO-DBnet not only achieves a comprehensive decent improvement
compared to baseline systems, but also maintain the performance on high
frequency bands when phase wrapping occurs.
- Abstract(参考訳): 近年,多チャンネル音声分離のための深層学習型ビームフォーマが提案されている。
それでも、そのほとんどは、スピーカーの特徴、顔画像、方向情報など、事前に知られている余分な手がかりに依存している。
本稿では,MIMO-DBnetという混合信号のみを与えられた方向案内音声分離のためのエンドツーエンドビームフォーミングネットワークを提案する。
具体的には,複数チャネルの入力と複数出力アーキテクチャを設計し,各ソースの指向性に基づく埋め込みとビームフォーミング重みを予測する。
正確に推定された方向埋め込みは、神経ビームフォーマーが位相ラッピングの効果を相殺するため、より正確な2つの音源の音声信号の再構成を可能にする非常に効果的な空間的識別ガイダンスを提供する。
実験の結果,提案するMIMO-DBnetは,ベースラインシステムに比べて網羅的な改善を達成できるだけでなく,位相ラップ時の高周波帯の性能も維持できることがわかった。
関連論文リスト
- A unified multichannel far-field speech recognition system: combining
neural beamforming with attention based end-to-end model [14.795953417531907]
本稿では,ニューラルビームフォーミングとトランスフォーマーをベースとしたリステン,スペル,アトンド(LAS)音声認識システムを組み合わせた多チャンネル遠距離音声認識システムを提案する。
提案手法は, 強いベースラインに比べて19.26%向上した。
論文 参考訳(メタデータ) (2024-01-05T07:11:13Z) - On Neural Architectures for Deep Learning-based Source Separation of
Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。
我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文 参考訳(メタデータ) (2023-03-11T16:29:13Z) - Towards Efficient Subarray Hybrid Beamforming: Attention Network-based
Practical Feedback in FDD Massive MU-MIMO Systems [9.320559153486885]
本稿では,チャネル推定とフィードバックのための協調最適化ネットワークを提案する。
実験の結果,提案するネットワークは,リソースに敏感なユーザ機器において10倍以上軽量であることがわかった。
論文 参考訳(メタデータ) (2023-02-05T15:12:07Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Neural Calibration for Scalable Beamforming in FDD Massive MIMO with
Implicit Channel Estimation [10.775558382613077]
チャネル推定とビームフォーミングは、周波数分割二重化(FDD)大規模マルチインプット多重出力(MIMO)システムにおいて重要な役割を果たす。
受信したアップリンクパイロットに応じて,基地局のビームフォーマを直接最適化する深層学習方式を提案する。
エンド・ツー・エンドの設計のスケーラビリティを向上させるために,ニューラルキャリブレーション法を提案する。
論文 参考訳(メタデータ) (2021-08-03T14:26:14Z) - Model-Driven Deep Learning Based Channel Estimation and Feedback for
Millimeter-Wave Massive Hybrid MIMO Systems [61.78590389147475]
本稿では,ミリ波(mmWave)システムのモデル駆動深層学習(MDDL)に基づくチャネル推定とフィードバック方式を提案する。
無線周波数(RF)鎖の限られた数から高次元チャネルを推定するためのアップリンクパイロットオーバーヘッドを低減するために,位相シフトネットワークとチャネル推定器を自動エンコーダとして共同で訓練することを提案する。
MDDLに基づくチャネル推定とフィードバック方式は,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-22T13:34:53Z) - Deep Learning-based Compressive Beam Alignment in mmWave Vehicular
Systems [75.77033270838926]
車両用チャネルは、より少ないチャネル測定でビームアライメントに活用できる構造を示す。
構造化圧縮センシング(CS)行列を設計するための深層学習手法を提案する。
論文 参考訳(メタデータ) (2021-02-27T04:38:12Z) - DBNET: DOA-driven beamforming network for end-to-end farfield sound
source separation [20.200763595732912]
本稿では,エンド・ツー・エンドのソース分離のための指向性指向型ビームフォーミングネットワーク(DBnet)を提案する。
また,ポストマスキングネットワークを組み込んだDBnetのエンドツーエンド拡張も提案する。
実験の結果,畳み込み再帰型ポストマスキングネットワークを用いたDBnetの拡張は,最先端のソース分離法よりも優れていた。
論文 参考訳(メタデータ) (2020-10-22T09:52:05Z) - Deep Denoising Neural Network Assisted Compressive Channel Estimation
for mmWave Intelligent Reflecting Surfaces [99.34306447202546]
本稿では,mmWave IRSシステムに対するディープデノイングニューラルネットワークを用いた圧縮チャネル推定法を提案する。
我々はまず、受信チェーンをほとんど使わず、アップリンクのユーザ-IRSチャネルを推定するハイブリッド・パッシブ/アクティブIRSアーキテクチャを導入する。
完全チャネル行列は、圧縮センシングに基づいて限られた測定値から再構成することができる。
論文 参考訳(メタデータ) (2020-06-03T12:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。