論文の概要: FullSubNet+: Channel Attention FullSubNet with Complex Spectrograms for
Speech Enhancement
- arxiv url: http://arxiv.org/abs/2203.12188v1
- Date: Wed, 23 Mar 2022 04:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 16:31:39.281774
- Title: FullSubNet+: Channel Attention FullSubNet with Complex Spectrograms for
Speech Enhancement
- Title(参考訳): FullSubNet+: 音声強調のための複素スペクトル付きチャネル注意FullSubNet
- Authors: Jun Chen, Zilin Wang, Deyi Tuo, Zhiyong Wu, Shiyin Kang, Helen Meng
- Abstract要約: 本稿では,FullSubNet+と呼ばれる拡張シングルチャネルリアルタイム音声強調フレームワークを提案する。
DNS Challengeデータセットの実験結果は、FullSubNet+の優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 43.477179521051355
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Previously proposed FullSubNet has achieved outstanding performance in Deep
Noise Suppression (DNS) Challenge and attracted much attention. However, it
still encounters issues such as input-output mismatch and coarse processing for
frequency bands. In this paper, we propose an extended single-channel real-time
speech enhancement framework called FullSubNet+ with following significant
improvements. First, we design a lightweight multi-scale time sensitive channel
attention (MulCA) module which adopts multi-scale convolution and channel
attention mechanism to help the network focus on more discriminative frequency
bands for noise reduction. Then, to make full use of the phase information in
noisy speech, our model takes all the magnitude, real and imaginary
spectrograms as inputs. Moreover, by replacing the long short-term memory
(LSTM) layers in original full-band model with stacked temporal convolutional
network (TCN) blocks, we design a more efficient full-band module called
full-band extractor. The experimental results in DNS Challenge dataset show the
superior performance of our FullSubNet+, which reaches the state-of-the-art
(SOTA) performance and outperforms other existing speech enhancement
approaches.
- Abstract(参考訳): 以前提案されたFullSubNetは、Deep Noise Suppression (DNS) Challengeで優れたパフォーマンスを達成しており、多くの注目を集めている。
しかし、入出力ミスマッチや周波数帯域の粗い処理といった問題に直面している。
本稿では,フルサブネット+と呼ばれる拡張シングルチャネルリアルタイム音声強調フレームワークを提案する。
まず,マルチスケール畳み込みとチャネルアテンション機構を採用する軽量なマルチスケールタイムセンシティブチャネルアテンション(mulca)モジュールを設計し,ネットワークがノイズ低減のためにより識別可能な周波数帯域に集中できるようにする。
そして、ノイズの多い音声の位相情報をフル活用するために、我々のモデルは、すべての大きさ、実像および虚像のスペクトログラムを入力として取り込む。
さらに、元のフルバンドモデルにおける長期記憶層を時空間畳み込みネットワーク(TCN)ブロックに置き換えることで、フルバンド抽出器と呼ばれるより効率的なフルバンドモジュールを設計する。
DNS Challengeデータセットの実験結果から、現在のSOTA(State-of-the-art)のパフォーマンスに到達し、既存の音声強調手法よりも優れたパフォーマンスを示す。
関連論文リスト
- LMFCA-Net: A Lightweight Model for Multi-Channel Speech Enhancement with Efficient Narrow-Band and Cross-Band Attention [4.489833733302935]
本稿では,完全連結注意(LMFCA-Net)を分離した軽量マルチチャネル音声強調ネットワークを提案する。
提案するLMFCA-Netは、時間軸切り離し完全連結注意(T-FCA)と周波数軸切り離し完全連結注意(F-FCA)機構を導入し、長距離狭帯域およびクロスバンド情報を繰り返しユニットなしで効果的に捕捉する。
論文 参考訳(メタデータ) (2025-02-17T05:42:03Z) - Deep Active Speech Cancellation with Multi-Band Mamba Network [62.73250985838971]
アクティブ音声キャンセラ(ASC)のための新しい深層学習ネットワークを提案する。
提案したMulti-Band Mambaアーキテクチャは、入力音声を異なる周波数帯域にセグメントし、正確な反信号生成を可能にする。
実験の結果、ANCシナリオでは7.2dB、ASCでは6.2dBの改善が達成された。
論文 参考訳(メタデータ) (2025-02-03T09:22:26Z) - Cascaded Temporal Updating Network for Efficient Video Super-Resolution [47.63267159007611]
リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を及ぼす。
本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。
CTUNは,従来の方法に比べて効率と性能のトレードオフが良好である。
論文 参考訳(メタデータ) (2024-08-26T12:59:32Z) - VNet: A GAN-based Multi-Tier Discriminator Network for Speech Synthesis Vocoders [14.222389985736422]
VNetは、全帯域スペクトル情報を組み込んだGANベースのニューラルボコーダネットワークである。
VNetモデルは高忠実度音声を生成することができることを示す。
論文 参考訳(メタデータ) (2024-08-13T14:00:02Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Multi-Frequency Information Enhanced Channel Attention Module for
Speaker Representation Learning [41.44950556040058]
本稿では,多周波情報を活用し,新しい2つの注目モジュールを設計することを提案する。
提案したアテンションモジュールは、DCTに基づいて、複数の周波数成分からより多くの話者情報を効果的に取得することができる。
実験の結果,提案するSFSCおよびMFSCアテンションモジュールは,より識別性の高い話者表現を効率的に生成できることがわかった。
論文 参考訳(メタデータ) (2022-07-10T21:19:36Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Dynamic Slimmable Denoising Network [64.77565006158895]
DDSNet(Dynamic Slimmable Denoising Network)は、計算量が少なくて優れたDenoising品質を実現するための一般的な手法である。
OurNetには動的ゲートによる動的推論の能力が備わっている。
我々の実験は、最先端の個別に訓練された静的 denoising ネットワークよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-10-17T22:45:33Z) - PRVNet: A Novel Partially-Regularized Variational Autoencoders for
Massive MIMO CSI Feedback [15.972209500908642]
ユーザ装置(UE)は、多重出力多重出力周波数分割二重化(MIMO-FDD)システムにおいて、ダウンリンクチャネル状態情報(CSI)を基地局に送信し、リンク状況を報告する。
本稿では,変分オートエンコーダ(VAE)にインスパイアされたニューラルネットワークアーキテクチャであるPRVNetを紹介し,基地局に送信する前にCSI行列を圧縮する。
論文 参考訳(メタデータ) (2020-11-09T04:07:45Z) - Channel-Attention Dense U-Net for Multichannel Speech Enhancement [21.94418736688929]
我々は、ビームフォーミングを模倣するチャネルアテンション機構をディープアーキテクチャ内に導入する。
我々は,CHiME-3データセットの最先端アプローチに対して,ネットワークの優れた性能を示す。
論文 参考訳(メタデータ) (2020-01-30T19:56:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。