論文の概要: BSS-CFFMA: Cross-Domain Feature Fusion and Multi-Attention Speech Enhancement Network based on Self-Supervised Embedding
- arxiv url: http://arxiv.org/abs/2408.06851v1
- Date: Tue, 13 Aug 2024 12:27:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 17:36:36.917681
- Title: BSS-CFFMA: Cross-Domain Feature Fusion and Multi-Attention Speech Enhancement Network based on Self-Supervised Embedding
- Title(参考訳): BSS-CFFMA:自己監督型埋め込みに基づくクロスドメイン特徴融合とマルチアテンション音声強調ネットワーク
- Authors: Alimjan Mattursun, Liejun Wang, Yinfeng Yu,
- Abstract要約: 音声自己教師型学習(SSL)は、複数の下流タスクで最先端(SOTA)のパフォーマンスを達成したことを示す。
本研究では,BSS-CFFMAと呼ばれる新しいクロスドメイン機能融合とマルチアテンション音声強調ネットワークを提案する。
我々はVoiceBank-DEMANDデータセットの比較およびアブレーションによるBSS-CFFMAモデルの性能評価を行った。
- 参考スコア(独自算出の注目度): 6.725011823614421
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech self-supervised learning (SSL) represents has achieved state-of-the-art (SOTA) performance in multiple downstream tasks. However, its application in speech enhancement (SE) tasks remains immature, offering opportunities for improvement. In this study, we introduce a novel cross-domain feature fusion and multi-attention speech enhancement network, termed BSS-CFFMA, which leverages self-supervised embeddings. BSS-CFFMA comprises a multi-scale cross-domain feature fusion (MSCFF) block and a residual hybrid multi-attention (RHMA) block. The MSCFF block effectively integrates cross-domain features, facilitating the extraction of rich acoustic information. The RHMA block, serving as the primary enhancement module, utilizes three distinct attention modules to capture diverse attention representations and estimate high-quality speech signals. We evaluate the performance of the BSS-CFFMA model through comparative and ablation studies on the VoiceBank-DEMAND dataset, achieving SOTA results. Furthermore, we select three types of data from the WHAMR! dataset, a collection specifically designed for speech enhancement tasks, to assess the capabilities of BSS-CFFMA in tasks such as denoising only, dereverberation only, and simultaneous denoising and dereverberation. This study marks the first attempt to explore the effectiveness of self-supervised embedding-based speech enhancement methods in complex tasks encompassing dereverberation and simultaneous denoising and dereverberation. The demo implementation of BSS-CFFMA is available online\footnote[2]{https://github.com/AlimMat/BSS-CFFMA. \label{s1}}.
- Abstract(参考訳): 音声自己教師型学習(SSL)は、複数の下流タスクで最先端(SOTA)のパフォーマンスを達成したことを示す。
しかし、音声強調(SE)タスクへの応用は未熟であり、改善の機会を提供する。
本研究では,BSS-CFFMAと呼ばれる,自己監督型埋め込みを利用した新しいクロスドメイン機能融合とマルチアテンション音声強調ネットワークを提案する。
BSS-CFFMAは、マルチスケールクロスドメイン機能融合(MSCFF)ブロックと、残留ハイブリッドマルチアテンション(RHMA)ブロックからなる。
MSCFFブロックは、クロスドメイン機能を効果的に統合し、リッチな音響情報の抽出を容易にする。
RHMAブロックは、主要な拡張モジュールとして機能し、3つの異なるアテンションモジュールを使用して、多様なアテンション表現をキャプチャし、高品質な音声信号を推定する。
我々は、VoiceBank-DEMANDデータセットの比較およびアブレーションによるBSS-CFFMAモデルの性能評価を行い、SOTA結果を得た。
さらに、音声強調タスク用に特別に設計されたデータセットであるWHAMR!データセットから3種類のデータを選択し、聴取のみ、発声のみ、発声と発声を同時に行うタスクにおけるBSS-CFFMAの能力を評価する。
本研究は, 発声・発声・発声を含む複雑なタスクにおいて, 自己教師型埋め込み型音声強調法の有効性を探求する最初の試みである。
BSS-CFFMAのデモ実装はオンラインで公開されている。
\label{s1}}。
関連論文リスト
- Disentangling CLIP Features for Enhanced Localized Understanding [58.73850193789384]
提案するUnmix-CLIPは,相互特徴情報(MFI)の低減と特徴の絡み合いの改善を目的とした新しいフレームワークである。
COCO-14データセットでは、Unmix-CLIPは機能の類似性を24.9%削減している。
論文 参考訳(メタデータ) (2025-02-05T08:20:31Z) - Generalized Uncertainty-Based Evidential Fusion with Hybrid Multi-Head Attention for Weak-Supervised Temporal Action Localization [28.005080560540133]
弱教師付き時間的アクションローカライゼーション(WS-TAL)は、完全なアクションインスタンスをローカライズし、それらをビデオレベルのラベルに分類するタスクである。
動作背景のあいまいさは、主にアグリゲーションと動作内変動に起因するバックグラウンドノイズによって引き起こされるものであり、既存のWS-TAL手法にとって重要な課題である。
本稿では,ハイブリッドマルチヘッドアテンション(HMHA)モジュールと一般化された不確実性に基づく明らかな融合(GUEF)モジュールを導入し,この問題に対処する。
論文 参考訳(メタデータ) (2024-12-27T03:04:57Z) - SCORE: Self-supervised Correspondence Fine-tuning for Improved Content
Representations [23.56580783289533]
本研究は,SSL音声表現をコンテンツ関連タスクに適用するために,自己教師付き対応(SCORE)ファインタニングというコスト効率の高いSSFT手法を提案する。
SCOREは、自動音声認識、音素認識、クエリ・バイ・サンプルタスクのための単一のGPU上で、わずか数時間の微調整(5時間)で、SUPERBベンチマークのバニラ HuBERT を上回っている。
論文 参考訳(メタデータ) (2024-03-10T16:57:51Z) - DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and
Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。
これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。
このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文 参考訳(メタデータ) (2024-02-03T06:49:42Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - IIANet: An Intra- and Inter-Modality Attention Network for Audio-Visual
Speech Separation [36.935137240527204]
音声・視覚的特徴融合に注意機構を利用するIIANet(Intra- and Inter-Attention Network)と呼ばれる新しいモデルを提案する。
IIANetは、イントラアテンションブロック(IntraA)とインターアテンションブロック(InterA)の2つのタイプのアテンションブロックで構成されている。
3つの標準オーディオ視覚分離ベンチマーク(LRS2, LRS3, VoxCeleb2)の総合的な実験により,IIANetの有効性が実証された。
論文 参考訳(メタデータ) (2023-08-16T04:31:33Z) - Dense Affinity Matching for Few-Shot Segmentation [83.65203917246745]
Few-Shot (FSS) は、新しいクラスイメージをいくつかのサンプルで分割することを目的としている。
本稿では,サポートクエリ間の相互作用を生かした密接な親和性マッチングフレームワークを提案する。
我々のフレームワークは0.68万のパラメータしか持たない異なる設定で非常に競争力のある性能を示す。
論文 参考訳(メタデータ) (2023-07-17T12:27:15Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Parallel Gated Neural Network With Attention Mechanism For Speech
Enhancement [0.0]
本稿では,特徴抽出ブロック (FEB) と補償拡張ブロック (ComEB) とマスクブロック (MB) からなる新しい単調音声強調システムを提案する。
Librispeech データセットを用いて実験を行い,提案モデルがESTOI と PESQ のスコアから,最近のモデルよりも優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2022-10-26T06:42:19Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - A cross-modal fusion network based on self-attention and residual
structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。
提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。
実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文 参考訳(メタデータ) (2021-11-03T12:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。