Fugu-MT 論文翻訳(概要): Monaural Speech Enhancement with Complex Convolutional Block Attention Module and Joint Time Frequency Losses

論文の概要: Monaural Speech Enhancement with Complex Convolutional Block Attention Module and Joint Time Frequency Losses

arxiv url: http://arxiv.org/abs/2102.01993v1
Date: Wed, 3 Feb 2021 10:30:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-04 16:57:42.109613
Title: Monaural Speech Enhancement with Complex Convolutional Block Attention Module and Joint Time Frequency Losses
Title（参考訳）: 複合畳み込みブロック注意モジュールと同時時間周波数損失を用いたモナラ音声強調
Authors: Shengkui Zhao, Trung Hieu Nguyen, Bin Ma
Abstract要約: 本稿では,複雑な畳み込みブロックアテンションモジュール(CCBAM)を提案する。 CCBAMは軽量で汎用的なモジュールで、複雑な値の畳み込み層に簡単に統合できる。本稿では、時間周波数(TF)領域と時間領域の両方において、複雑なモデルを協調的に最適化する混合損失関数を提案する。
参考スコア（独自算出の注目度）: 21.467804048717024
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Deep complex U-Net structure and convolutional recurrent network (CRN) structure achieve state-of-the-art performance for monaural speech enhancement. Both deep complex U-Net and CRN are encoder and decoder structures with skip connections, which heavily rely on the representation power of the complex-valued convolutional layers. In this paper, we propose a complex convolutional block attention module (CCBAM) to boost the representation power of the complex-valued convolutional layers by constructing more informative features. The CCBAM is a lightweight and general module which can be easily integrated into any complex-valued convolutional layers. We integrate CCBAM with the deep complex U-Net and CRN to enhance their performance for speech enhancement. We further propose a mixed loss function to jointly optimize the complex models in both time-frequency (TF) domain and time domain. By integrating CCBAM and the mixed loss, we form a new end-to-end (E2E) complex speech enhancement framework. Ablation experiments and objective evaluations show the superior performance of the proposed approaches.
Abstract（参考訳）: 複合U-Net構造と畳み込みリカレントネットワーク(CRN)構造は、モノラル音声強調のための最先端性能を実現する。深い複素U-NetとCRNはどちらもスキップ接続を持つエンコーダとデコーダ構造であり、複素値畳み込み層の表現力に大きく依存している。本稿では、より有益な特徴を構築することにより、複雑値の畳み込み層の表現力を高めるための複合畳み込みブロック注意モジュール(CCBAM)を提案する。 CCBAMは、任意の複雑な値の畳み込み層に簡単に統合できる軽量で一般的なモジュールです。 CCBAM と深い複雑な U-Net と CRN を統合し、音声強調のためのパフォーマンスを高めます。さらに、時間周波数(TF)領域と時間領域の両方で複雑なモデルを共同最適化する混合損失関数を提案します。 CCBAMと混合損失を統合することで、我々は新しいエンドツーエンド(E2E)複合音声強調フレームワークを形成する。アブレーション実験と客観的評価は,提案手法の優れた性能を示す。

関連論文リスト

A High-Fidelity Speech Super Resolution Network using a Complex Global Attention Module with Spectro-Temporal Loss [2.209230432078302]
音声超解像(SSR)はサンプリング率を高めて低分解能音声を強化する。近年の研究では、知覚品質向上のための位相再構成の重要性が強調されている。我々は、複雑なSSRタスクを改善するために、複雑なドメインにおける大きさと位相の両方を再構成する複雑な時間周波数変換ネットワークであるCTFT-Netを紹介する。
論文参考訳（メタデータ） (2025-06-30T19:53:15Z)
LGM-Pose: A Lightweight Global Modeling Network for Real-time Human Pose Estimation [9.000760165185532]
これらの課題に対処するために,シングルブランチ軽量グローバルモデリングネットワーク (LGM-Pose) が提案されている。このネットワークでは、軽量なMobileViMブロックが、LARM(Lightweight Attentional Representation Module)として提案されている。
論文参考訳（メタデータ） (2025-06-05T02:29:04Z)
Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning [50.74383395813782]
本稿では,周波数・空間相互学習ネットワーク(FSMNet)を提案する。提案したFSMNetは, 加速度係数の異なるマルチコントラストMR再構成タスクに対して, 最先端の性能を実現する。
論文参考訳（メタデータ） (2024-09-21T12:02:47Z)
Modality-Collaborative Transformer with Hybrid Feature Reconstruction for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。 MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文参考訳（メタデータ） (2023-12-26T01:59:23Z)
Fully Complex-valued Fully Convolutional Multi-feature Fusion Network (FC2MFN) for Building Segmentation of InSAR images [7.3045725197814875]
本稿では,InSAR画像上にセマンティックセグメンテーションを構築するための完全複素数値完全畳み込み多機能融合ネットワーク(FC2MFN)を提案する。複素数値化InSARデータの特異性については、その大きさと位相を考慮した複素数を比較するための新しい複素数値化プーリング層が提案されている。 FC2MFNは、セグメンテーション性能とモデル複雑さの観点から、他の最先端手法と比較して、より良い結果が得られる。
論文参考訳（メタデータ） (2022-12-14T08:17:39Z)
Complex-Valued Time-Frequency Self-Attention for Speech Dereverberation [39.64103126881576]
本稿では,スペクトルおよび時間依存性をモデル化した複雑なT-Fアテンション(TFA)モジュールを提案する。本稿では,REVERBチャレンジコーパスを用いた深部複雑畳み込みリカレントネットワーク(DCCRN)を用いた複雑なTFAモジュールの有効性を検証した。実験結果から,複雑なTFAモジュールをDCCRNに統合することで,バックエンド音声アプリケーション全体の品質と性能が向上することが示唆された。
論文参考訳（メタデータ） (2022-11-22T23:38:10Z)
Transformer-based Context Condensation for Boosting Feature Pyramids in Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文参考訳（メタデータ） (2022-07-14T01:45:03Z)
Adversarial Audio Synthesis with Complex-valued Polynomial Networks [60.231877895663956]
音声における時間周波数(TF)表現は、実数値ネットワークとしてますますモデル化されている。我々は,このような複雑な数値表現を自然な方法で統合するAPOLLOと呼ばれる複雑な数値ネットワークを導入する。 APOLLOは、音声生成におけるSC09の最先端拡散モデルよりも17.5%$改善され、8.2%ドルとなる。
論文参考訳（メタデータ） (2022-06-14T12:58:59Z)
Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。 Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文参考訳（メタデータ） (2022-06-02T06:06:29Z)
UniNet: Unified Architecture Search with Convolution, Transformer, and MLP [62.401161377258234]
本稿では,コンボリューション,トランスフォーマー,COCOの最適組み合わせを共同で探索し,一連の全演算型ネットワークアーキテクチャを構築することを提案する。広範に使われているストリップド・コンボリューション (strided convolution) あるいはプール・ベース・ダウンサンプリング・モジュールは,演算子を結合してネットワークを形成する場合,性能上のボトルネックとなる。変換器と演算子によって捕捉されるグローバルなコンテキストによりよく対処するために,2つの新しいコンテキスト対応ダウンサンプリングモジュールを提案する。
論文参考訳（メタデータ） (2021-10-08T11:09:40Z)
AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network [8.127449025802436]
本稿では,AA-RMVSNetというアダプティブアグリゲーションを備えた長短期記憶(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを提案する。本稿では,すべてのビューにおいて,より整合性のあるペアを保存可能な,適応的なピクセルワイドビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。
論文参考訳（メタデータ） (2021-08-09T06:10:48Z)
Over-and-Under Complete Convolutional RNN for MRI Reconstruction [57.95363471940937]
MR画像再構成のための最近のディープラーニングに基づく手法は、通常、汎用的なオートエンコーダアーキテクチャを利用する。 OUCR(Over-and-Under Complete Convolu?tional Recurrent Neural Network)を提案する。提案手法は, トレーニング可能なパラメータの少ない圧縮されたセンシングと, 一般的なディープラーニングに基づく手法に対して, 大幅な改善を実現する。
論文参考訳（メタデータ） (2021-06-16T15:56:34Z)
Conformer: Local Features Coupling Global Representations for Visual Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文参考訳（メタデータ） (2021-05-09T10:00:03Z)
Co-VeGAN: Complex-Valued Generative Adversarial Network for Compressive Sensing MR Image Reconstruction [8.856953486775716]
本稿では,複素値入力を処理するための,複素値対向ネットワーク(Co-VeGAN)に基づく新しいフレームワークを提案する。我々のモデルは複雑な値入力を処理でき、CS-MR画像の高品質な再構成を可能にする。
論文参考訳（メタデータ） (2020-02-24T20:28:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。