論文の概要: Monaural Speech Enhancement with Complex Convolutional Block Attention
Module and Joint Time Frequency Losses
- arxiv url: http://arxiv.org/abs/2102.01993v1
- Date: Wed, 3 Feb 2021 10:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 16:57:42.109613
- Title: Monaural Speech Enhancement with Complex Convolutional Block Attention
Module and Joint Time Frequency Losses
- Title(参考訳): 複合畳み込みブロック注意モジュールと同時時間周波数損失を用いたモナラ音声強調
- Authors: Shengkui Zhao, Trung Hieu Nguyen, Bin Ma
- Abstract要約: 本稿では,複雑な畳み込みブロックアテンションモジュール(CCBAM)を提案する。
CCBAMは軽量で汎用的なモジュールで、複雑な値の畳み込み層に簡単に統合できる。
本稿では、時間周波数(TF)領域と時間領域の両方において、複雑なモデルを協調的に最適化する混合損失関数を提案する。
- 参考スコア(独自算出の注目度): 21.467804048717024
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep complex U-Net structure and convolutional recurrent network (CRN)
structure achieve state-of-the-art performance for monaural speech enhancement.
Both deep complex U-Net and CRN are encoder and decoder structures with skip
connections, which heavily rely on the representation power of the
complex-valued convolutional layers. In this paper, we propose a complex
convolutional block attention module (CCBAM) to boost the representation power
of the complex-valued convolutional layers by constructing more informative
features. The CCBAM is a lightweight and general module which can be easily
integrated into any complex-valued convolutional layers. We integrate CCBAM
with the deep complex U-Net and CRN to enhance their performance for speech
enhancement. We further propose a mixed loss function to jointly optimize the
complex models in both time-frequency (TF) domain and time domain. By
integrating CCBAM and the mixed loss, we form a new end-to-end (E2E) complex
speech enhancement framework. Ablation experiments and objective evaluations
show the superior performance of the proposed approaches.
- Abstract(参考訳): 複合U-Net構造と畳み込みリカレントネットワーク(CRN)構造は、モノラル音声強調のための最先端性能を実現する。
深い複素U-NetとCRNはどちらもスキップ接続を持つエンコーダとデコーダ構造であり、複素値畳み込み層の表現力に大きく依存している。
本稿では、より有益な特徴を構築することにより、複雑値の畳み込み層の表現力を高めるための複合畳み込みブロック注意モジュール(CCBAM)を提案する。
CCBAMは、任意の複雑な値の畳み込み層に簡単に統合できる軽量で一般的なモジュールです。
CCBAM と深い複雑な U-Net と CRN を統合し、音声強調のためのパフォーマンスを高めます。
さらに、時間周波数(TF)領域と時間領域の両方で複雑なモデルを共同最適化する混合損失関数を提案します。
CCBAMと混合損失を統合することで、我々は新しいエンドツーエンド(E2E)複合音声強調フレームワークを形成する。
アブレーション実験と客観的評価は,提案手法の優れた性能を示す。
関連論文リスト
- Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning [50.74383395813782]
本稿では,周波数・空間相互学習ネットワーク(FSMNet)を提案する。
提案したFSMNetは, 加速度係数の異なるマルチコントラストMR再構成タスクに対して, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T12:02:47Z) - Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文 参考訳(メタデータ) (2023-12-26T01:59:23Z) - Fully Complex-valued Fully Convolutional Multi-feature Fusion Network
(FC2MFN) for Building Segmentation of InSAR images [7.3045725197814875]
本稿では,InSAR画像上にセマンティックセグメンテーションを構築するための完全複素数値完全畳み込み多機能融合ネットワーク(FC2MFN)を提案する。
複素数値化InSARデータの特異性については、その大きさと位相を考慮した複素数を比較するための新しい複素数値化プーリング層が提案されている。
FC2MFNは、セグメンテーション性能とモデル複雑さの観点から、他の最先端手法と比較して、より良い結果が得られる。
論文 参考訳(メタデータ) (2022-12-14T08:17:39Z) - Complex-Valued Time-Frequency Self-Attention for Speech Dereverberation [39.64103126881576]
本稿では,スペクトルおよび時間依存性をモデル化した複雑なT-Fアテンション(TFA)モジュールを提案する。
本稿では,REVERBチャレンジコーパスを用いた深部複雑畳み込みリカレントネットワーク(DCCRN)を用いた複雑なTFAモジュールの有効性を検証した。
実験結果から,複雑なTFAモジュールをDCCRNに統合することで,バックエンド音声アプリケーション全体の品質と性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-11-22T23:38:10Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - Adversarial Audio Synthesis with Complex-valued Polynomial Networks [60.231877895663956]
音声における時間周波数(TF)表現は、実数値ネットワークとしてますますモデル化されている。
我々は,このような複雑な数値表現を自然な方法で統合するAPOLLOと呼ばれる複雑な数値ネットワークを導入する。
APOLLOは、音声生成におけるSC09の最先端拡散モデルよりも17.5%$改善され、8.2%ドルとなる。
論文 参考訳(メタデータ) (2022-06-14T12:58:59Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Over-and-Under Complete Convolutional RNN for MRI Reconstruction [57.95363471940937]
MR画像再構成のための最近のディープラーニングに基づく手法は、通常、汎用的なオートエンコーダアーキテクチャを利用する。
OUCR(Over-and-Under Complete Convolu?tional Recurrent Neural Network)を提案する。
提案手法は, トレーニング可能なパラメータの少ない圧縮されたセンシングと, 一般的なディープラーニングに基づく手法に対して, 大幅な改善を実現する。
論文 参考訳(メタデータ) (2021-06-16T15:56:34Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - Co-VeGAN: Complex-Valued Generative Adversarial Network for Compressive
Sensing MR Image Reconstruction [8.856953486775716]
本稿では,複素値入力を処理するための,複素値対向ネットワーク(Co-VeGAN)に基づく新しいフレームワークを提案する。
我々のモデルは複雑な値入力を処理でき、CS-MR画像の高品質な再構成を可能にする。
論文 参考訳(メタデータ) (2020-02-24T20:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。