論文の概要: Efficient Encoder-Decoder and Dual-Path Conformer for Comprehensive
Feature Learning in Speech Enhancement
- arxiv url: http://arxiv.org/abs/2306.05861v1
- Date: Fri, 9 Jun 2023 12:52:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 13:30:02.243480
- Title: Efficient Encoder-Decoder and Dual-Path Conformer for Comprehensive
Feature Learning in Speech Enhancement
- Title(参考訳): 音声強調における包括的特徴学習のための効率的なエンコーダデコーダとデュアルパスコンバータ
- Authors: Junyu Wang
- Abstract要約: 本稿では、時間周波数(T-F)ドメイン音声強調ネットワーク(DPCFCS-Net)を提案する。
改良された高密度接続ブロック、デュアルパスモジュール、畳み込み拡張トランス(コンフォーマー)、チャンネルアテンション、空間アテンションが組み込まれている。
従来のモデルと比較して,提案モデルはより効率的なエンコーダデコーダを備え,包括的特徴を学習することができる。
- 参考スコア(独自算出の注目度): 0.2538209532048866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current speech enhancement (SE) research has largely neglected channel
attention and spatial attention, and encoder-decoder architecture-based
networks have not adequately considered how to provide efficient inputs to the
intermediate enhancement layer. To address these issues, this paper proposes a
time-frequency (T-F) domain SE network (DPCFCS-Net) that incorporates improved
densely connected blocks, dual-path modules, convolution-augmented transformers
(conformers), channel attention, and spatial attention. Compared with previous
models, our proposed model has a more efficient encoder-decoder and can learn
comprehensive features. Experimental results on the VCTK+DEMAND dataset
demonstrate that our method outperforms existing techniques in SE performance.
Furthermore, the improved densely connected block and two dimensions attention
module developed in this work are highly adaptable and easily integrated into
existing networks.
- Abstract(参考訳): 現在の音声強調(SE)研究は、チャネルの注意と空間の注意をほとんど無視しており、エンコーダ・デコーダアーキテクチャに基づくネットワークは、中間エンハンスメント層に効率的に入力する方法を十分に考慮していない。
そこで本稿では,より密結合されたブロック,デュアルパスモジュール,畳み込み型トランスフォーマ(コンフォーマ),チャネルの注意,空間的注意を組み込んだ時間周波数(t-f)ドメインseネットワーク(dpcfcs-net)を提案する。
従来のモデルと比較して,提案モデルはより効率的なエンコーダ・デコーダを備え,包括的特徴を学習できる。
VCTK+DEMANDデータセットの実験結果から,本手法はSE性能において既存の手法よりも優れていることが示された。
さらに, 改良された高密度連結ブロックと2次元アテンションモジュールは, 適応性が高く, 既存のネットワークに容易に組み込むことができる。
関連論文リスト
- Synesthesia of Machines (SoM)-Enhanced ISAC Precoding for Vehicular Networks with Double Dynamics [15.847713094328286]
統合センシング・通信(ISAC)技術は車載ネットワークにおいて重要な役割を担っている。
ダブルダイナミクスは、リアルタイムISACプリコーディング設計において重要な課題を示す。
本稿では,機械(SoM)に強化されたプリコーディングパラダイムの合成を提案する。
論文 参考訳(メタデータ) (2024-08-24T10:35:10Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - An Efficient Speech Separation Network Based on Recurrent Fusion Dilated
Convolution and Channel Attention [0.2538209532048866]
本稿では,拡張畳み込み,マルチスケール融合(MSF),チャネルアテンションを組み合わせた効率的な音声分離ニューラルネットワーク ARFDCN を提案する。
実験結果から,本モデルでは性能と計算効率のバランスが良好であることが示唆された。
論文 参考訳(メタデータ) (2023-06-09T13:30:27Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - End-to-end Transformer for Compressed Video Quality Enhancement [21.967066471073462]
本稿では,Swin-AutoEncoderをベースとしたSpatio-Temporal Feature Fusion(SSTF)モジュールとChannel-wise Attention based Quality Enhancement(CAQE)モジュールからなる,トランスフォーマーベースの圧縮ビデオ品質向上(TVQE)手法を提案する。
提案手法は,推定速度とGPU消費の両方の観点から既存手法より優れている。
論文 参考訳(メタデータ) (2022-10-25T08:12:05Z) - EMC2A-Net: An Efficient Multibranch Cross-channel Attention Network for
SAR Target Classification [10.479559839534033]
本稿では,マルチブランチ構造に基づくマルチスケール受信フィールド(RF)を有するEMC2Aブロックを2つ提案し,効率的な異方性アーキテクチャであるDCNN,EMC2A-Netを設計した。
EMC2Aブロックは、異なる拡張レートの並列拡張畳み込みを利用して、計算負担を大幅に増大させることなく、マルチスケールのコンテキスト特徴を効果的にキャプチャすることができる。
本稿では,EMC2Aモジュールと呼ばれるマルチスケールのマルチチャネルアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2022-08-03T04:31:52Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - Crosslink-Net: Double-branch Encoder Segmentation Network via Fusing
Vertical and Horizontal Convolutions [58.71117402626524]
医用画像分割のための新しいダブルブランチエンコーダアーキテクチャを提案する。
1)正方形畳み込みカーネルによる特徴の識別をさらに改善する必要があるため,非正方形および水平畳み込みカーネルの利用を提案する。
実験では,4つのデータセット上でのモデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-24T02:58:32Z) - EfficientFCN: Holistically-guided Decoding for Semantic Segmentation [49.27021844132522]
最先端セマンティックセマンティックセグメンテーションアルゴリズムは主に拡張されたFully Convolutional Networks (DilatedFCN)に基づいている
本稿では,拡張畳み込みのないイメージネット事前学習ネットワークをバックボーンとする,効率的なFCNを提案する。
このようなフレームワークは、計算コストの1/3しか持たない最先端の手法に比べて、同等またはそれ以上の性能を達成する。
論文 参考訳(メタデータ) (2020-08-24T14:48:23Z) - Suppress and Balance: A Simple Gated Network for Salient Object
Detection [89.88222217065858]
両問題を同時に解くための単純なゲートネットワーク(GateNet)を提案する。
多レベルゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに最適に送信することができる。
さらに,提案したFold-ASPP操作(Fold-ASPP)に基づくアトラス空間ピラミッドプーリングを用いて,様々なスケールのサリアンオブジェクトを正確に位置決めする。
論文 参考訳(メタデータ) (2020-07-16T02:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。