論文の概要: Channel-Attention Dense U-Net for Multichannel Speech Enhancement
- arxiv url: http://arxiv.org/abs/2001.11542v1
- Date: Thu, 30 Jan 2020 19:56:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 12:03:52.402340
- Title: Channel-Attention Dense U-Net for Multichannel Speech Enhancement
- Title(参考訳): マルチチャネル音声強調のためのチャネル注意深度U-Net
- Authors: Bahareh Tolooshams, Ritwik Giri, Andrew H. Song, Umut Isik, Arvindh
Krishnaswamy
- Abstract要約: 我々は、ビームフォーミングを模倣するチャネルアテンション機構をディープアーキテクチャ内に導入する。
我々は,CHiME-3データセットの最先端アプローチに対して,ネットワークの優れた性能を示す。
- 参考スコア(独自算出の注目度): 21.94418736688929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised deep learning has gained significant attention for speech
enhancement recently. The state-of-the-art deep learning methods perform the
task by learning a ratio/binary mask that is applied to the mixture in the
time-frequency domain to produce the clean speech. Despite the great
performance in the single-channel setting, these frameworks lag in performance
in the multichannel setting as the majority of these methods a) fail to exploit
the available spatial information fully, and b) still treat the deep
architecture as a black box which may not be well-suited for multichannel audio
processing. This paper addresses these drawbacks, a) by utilizing complex ratio
masking instead of masking on the magnitude of the spectrogram, and more
importantly, b) by introducing a channel-attention mechanism inside the deep
architecture to mimic beamforming. We propose Channel-Attention Dense U-Net, in
which we apply the channel-attention unit recursively on feature maps at every
layer of the network, enabling the network to perform non-linear beamforming.
We demonstrate the superior performance of the network against the
state-of-the-art approaches on the CHiME-3 dataset.
- Abstract(参考訳): 近年,深層学習が音声強調に注目されている。
最先端の深層学習方法は、時間周波数領域の混合に適用される比率/バイナリマスクを学習してタスクを実行し、クリーン音声を生成する。
シングルチャネル設定の性能は高いが、これらの手法の大部分はマルチチャネル設定の性能が低下している。
a) 利用可能な空間情報を十分に活用できないこと,及び
b) 深層アーキテクチャをマルチチャンネルオーディオ処理に適さないブラックボックスとして扱うこと。
この論文はこれらの欠点に対処する。
a) スペクトログラムの大きさをマスキングするのではなく,複雑な比マスキングを利用することにより,さらに重要なこと
b) ビームフォーミングを模倣するチャネルアテンション機構をディープアーキテクチャ内に導入することにより。
本稿では,ネットワークの各層の特徴地図上に再帰的にチャネルアテンションユニットを適用することで,非線形ビームフォーミングを実現するチャネルアテンション密集u-netを提案する。
我々は,CHiME-3データセットの最先端アプローチに対して,ネットワークの優れた性能を示す。
関連論文リスト
- TBSN: Transformer-Based Blind-Spot Network for Self-Supervised Image Denoising [94.09442506816724]
BSN(Blind-spot Network)は、自己教師型イメージデノベーション(SSID)において一般的なネットワークアーキテクチャである。
本稿では, ブラインドスポット要求を満たす変圧器演算子の解析と再設計により, 変圧器ベースブラインドスポットネットワーク(TBSN)を提案する。
空間的自己注意のために、注意行列に精巧なマスクを適用して受容場を制限し、拡張された畳み込みを模倣する。
チャネル自己アテンションについては,マルチスケールアーキテクチャの深層部において,チャネル数が空間的サイズよりも大きい場合,盲点情報を漏洩する可能性がある。
論文 参考訳(メタデータ) (2024-04-11T15:39:10Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - Enhancement of Spatial Clustering-Based Time-Frequency Masks using LSTM
Neural Networks [3.730592618611028]
我々はLSTMを用いて空間クラスタリングに基づく時間周波数マスクを強化する。
複数の単一チャネルLSTM-DNN音声強調器の信号モデリング性能と信号分離性能を両立させる。
カルディ自動音声認識装置の単語誤り率を用いて各システムの出力の可知性を評価する。
論文 参考訳(メタデータ) (2020-12-02T22:29:29Z) - Channel-wise Knowledge Distillation for Dense Prediction [73.99057249472735]
本稿では,学生ネットワークと教師ネットワークのチャンネルワイズ機能について提案する。
様々なネットワーク構造を持つ3つのベンチマークにおいて、一貫して優れた性能を実現している。
論文 参考訳(メタデータ) (2020-11-26T12:00:38Z) - Deep Denoising Neural Network Assisted Compressive Channel Estimation
for mmWave Intelligent Reflecting Surfaces [99.34306447202546]
本稿では,mmWave IRSシステムに対するディープデノイングニューラルネットワークを用いた圧縮チャネル推定法を提案する。
我々はまず、受信チェーンをほとんど使わず、アップリンクのユーザ-IRSチャネルを推定するハイブリッド・パッシブ/アクティブIRSアーキテクチャを導入する。
完全チャネル行列は、圧縮センシングに基づいて限られた測定値から再構成することができる。
論文 参考訳(メタデータ) (2020-06-03T12:18:57Z) - Neural Speech Separation Using Spatially Distributed Microphones [19.242927805448154]
本稿では,空間分布マイクロホンを用いたニューラルネットワークに基づく音声分離手法を提案する。
従来のマイクアレイの設定とは異なり、マイクの数や空間配置は事前に分かっていない。
音声認識実験の結果,提案手法はベースライン型マルチチャネル音声分離システムよりも有意に優れていた。
論文 参考訳(メタデータ) (2020-04-28T17:16:31Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。