論文の概要: Magnitude-Phase Dual-Path Speech Enhancement Network based on Self-Supervised Embedding and Perceptual Contrast Stretch Boosting
- arxiv url: http://arxiv.org/abs/2503.21571v1
- Date: Thu, 27 Mar 2025 14:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:51:10.571276
- Title: Magnitude-Phase Dual-Path Speech Enhancement Network based on Self-Supervised Embedding and Perceptual Contrast Stretch Boosting
- Title(参考訳): 自己監督型埋め込みと知覚コントラストストストレッチブースティングに基づく経時的デュアルパス音声強調ネットワーク
- Authors: Alimjan Mattursun, Liejun Wang, Yinfeng Yu, Chunyang Ma,
- Abstract要約: BSP-MPNetは、音声強調のための自己教師付き特徴と等級情報を組み合わせたデュアルパスフレームワークである。
我々はVoiceBank+DEMANDとWHAMR!データセット上でBSP-MPNetを評価する。
- 参考スコア(独自算出の注目度): 6.15602203132432
- License:
- Abstract: Speech self-supervised learning (SSL) has made great progress in various speech processing tasks, but there is still room for improvement in speech enhancement (SE). This paper presents BSP-MPNet, a dual-path framework that combines self-supervised features with magnitude-phase information for SE. The approach starts by applying the perceptual contrast stretching (PCS) algorithm to enhance the magnitude-phase spectrum. A magnitude-phase 2D coarse (MP-2DC) encoder then extracts coarse features from the enhanced spectrum. Next, a feature-separating self-supervised learning (FS-SSL) model generates self-supervised embeddings for the magnitude and phase components separately. These embeddings are fused to create cross-domain feature representations. Finally, two parallel RNN-enhanced multi-attention (REMA) mask decoders refine the features, apply them to the mask, and reconstruct the speech signal. We evaluate BSP-MPNet on the VoiceBank+DEMAND and WHAMR! datasets. Experimental results show that BSP-MPNet outperforms existing methods under various noise conditions, providing new directions for self-supervised speech enhancement research. The implementation of the BSP-MPNet code is available online\footnote[2]{https://github.com/AlimMat/BSP-MPNet. \label{s1}}
- Abstract(参考訳): 音声自己教師型学習(SSL)は,様々な音声処理タスクにおいて大きな進歩を遂げてきたが,音声強調(SE)の改善の余地は依然として残っている。
本稿では、自己教師付き特徴とSEの等級情報を組み合わせた二重パスフレームワークであるBSP-MPNetを提案する。
この手法は、知覚コントラストストストストレッチ(PCS)アルゴリズムを適用して、等級スペクトルを強化することから始まる。
等級2D粗いエンコーダ(MP-2DC)は、拡張スペクトルから粗い特徴を抽出する。
次に、機能分離型自己教師型学習(FS-SSL)モデルにより、大きさと位相成分を別々に自己教師型埋め込みを生成する。
これらの埋め込みは、クロスドメインの特徴表現を作成するために融合される。
最後に、2つの並列RNN強化マルチアテンション(REMA)マスクデコーダが特徴を洗練し、マスクに適用し、音声信号を再構成する。
我々はVoiceBank+DEMANDとWHAMR!データセット上でBSP-MPNetを評価する。
実験結果から, BSP-MPNetは様々な雑音条件下での既存手法よりも優れており, 自己教師型音声強調研究の新たな方向性が示唆された。
BSP-MPNetコードの実装はオンラインで公開されている。
\label{s1}}
関連論文リスト
- SigWavNet: Learning Multiresolution Signal Wavelet Network for Speech Emotion Recognition [17.568724398229232]
音声感情認識(SER)は、音声信号の解読から感情状態において重要な役割を果たす。
本稿では,SERのための新しいエンド・ツー・エンド(E2E)深層学習フレームワークを提案する。
ウェーブレットの能力を利用して、時間領域と周波数領域の両方で効果的なローカライズを行う。
論文 参考訳(メタデータ) (2025-02-01T04:18:06Z) - SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting [14.402357651227003]
本稿では,音声信号の欠落部分を周囲の文脈から再構成する音声認識用SSLモデルについて検討する。
その目的のために、SSLエンコーダ、すなわち HuBERT とニューラルヴォコーダ、すなわち HiFiGAN を組み合わせてデコーダの役割を演じる。
論文 参考訳(メタデータ) (2024-05-30T14:41:39Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - PointCMP: Contrastive Mask Prediction for Self-supervised Learning on
Point Cloud Videos [58.18707835387484]
本稿では,ポイントクラウドビデオ上での自己教師型学習のための対照的なマスク予測フレームワークを提案する。
PointCMPは、局所的情報と大域的情報の両方を同時に学習するために、2分岐構造を用いる。
我々のフレームワークは、ベンチマークデータセットにおける最先端のパフォーマンスを達成し、既存のフル教師付きデータセットよりも優れています。
論文 参考訳(メタデータ) (2023-05-06T15:47:48Z) - PARFormer: Transformer-based Multi-Task Network for Pedestrian Attribute
Recognition [23.814762073093153]
4つのモジュールを含むPARFormerという,純粋なトランスフォーマーベースのマルチタスクPARネットワークを提案する。
特徴抽出モジュールでは,特徴抽出のための強力なベースラインを構築し,複数のPARベンチマークで競合する結果を得る。
視点認識モジュールでは、歩行者属性に対する視点の影響を探索し、マルチビューのコントラスト損失を提案する。
属性認識モジュールでは、負の正の不均衡問題を緩和し、属性予測を生成する。
論文 参考訳(メタデータ) (2023-04-14T16:27:56Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Parallel Gated Neural Network With Attention Mechanism For Speech
Enhancement [0.0]
本稿では,特徴抽出ブロック (FEB) と補償拡張ブロック (ComEB) とマスクブロック (MB) からなる新しい単調音声強調システムを提案する。
Librispeech データセットを用いて実験を行い,提案モデルがESTOI と PESQ のスコアから,最近のモデルよりも優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2022-10-26T06:42:19Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Video Saliency Prediction Using Enhanced Spatiotemporal Alignment
Network [35.932447204088845]
ビデオ・サリエンシ予測に適した効果的な機能アライメント・ネットワーク(V)を開発した。
ネットワークは、隣接するフレームの特徴を粗い方法で参照フレームに整列させることを学ぶ。
提案したモデルはポスト処理なしでエンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2020-01-02T02:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。