論文の概要: Unifying Speech Enhancement and Separation with Gradient Modulation for
End-to-End Noise-Robust Speech Separation
- arxiv url: http://arxiv.org/abs/2302.11131v1
- Date: Wed, 22 Feb 2023 03:54:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 16:27:22.411190
- Title: Unifying Speech Enhancement and Separation with Gradient Modulation for
End-to-End Noise-Robust Speech Separation
- Title(参考訳): 終端雑音-ロバスト音声分離のためのグラディエント変調による音声強調と分離
- Authors: Yuchen Hu, Chen Chen, Heqing Zou, Xionghu Zhong, Eng Siong Chng
- Abstract要約: 本稿では,音声の強調と分離を勾配変調で統一し,ノイズ・ロバスト性を改善する新しいネットワークを提案する。
実験結果から,大規模Libri2Mix-およびLibri3Mix-noisyデータセットの最先端化が得られた。
- 参考スコア(独自算出の注目度): 23.758202121043805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies in neural network-based monaural speech separation (SS) have
achieved a remarkable success thanks to increasing ability of long sequence
modeling. However, they would degrade significantly when put under realistic
noisy conditions, as the background noise could be mistaken for speaker's
speech and thus interfere with the separated sources. To alleviate this
problem, we propose a novel network to unify speech enhancement and separation
with gradient modulation to improve noise-robustness. Specifically, we first
build a unified network by combining speech enhancement (SE) and separation
modules, with multi-task learning for optimization, where SE is supervised by
parallel clean mixture to reduce noise for downstream speech separation.
Furthermore, in order to avoid suppressing valid speaker information when
reducing noise, we propose a gradient modulation (GM) strategy to harmonize the
SE and SS tasks from optimization view. Experimental results show that our
approach achieves the state-of-the-art on large-scale Libri2Mix- and
Libri3Mix-noisy datasets, with SI-SNRi results of 16.0 dB and 15.8 dB
respectively. Our code is available at GitHub.
- Abstract(参考訳): ニューラルネットワークに基づく一音節音声分離(SS)の最近の研究は、長周期モデリングの能力の増大により顕著な成功を収めている。
しかし、背景雑音は話者の発声と誤認し、分離した音源を妨害する可能性があるため、現実的な雑音条件下において著しく劣化する。
この問題を軽減するために,音声の強調と分離を勾配変調で統一し,ノイズロス性を改善する新しいネットワークを提案する。
具体的には,音声強調(se)と分離モジュールを組み合わせた統一ネットワークを構築し,マルチタスク学習による最適化を行った。
さらに,雑音の低減に有効な話者情報の抑制を避けるため,SEタスクとSSタスクを最適化視点から調和させる勾配変調(GM)戦略を提案する。
実験の結果,大規模Libri2Mix-およびLibri3Mix-noisyデータセットではSI-SNRiが16.0dBおよび15.8dBであった。
私たちのコードはGitHubで入手可能です。
関連論文リスト
- CheapNET: Improving Light-weight speech enhancement network by projected
loss function [0.8192907805418583]
我々は,MSEから分岐した新しい投射損失関数を導入し,雑音抑制を向上する。
エコーキャンセリングのために、この関数はLAEC事前処理された出力の直接予測を可能にする。
ノイズ抑制モデルは,3.1Mパラメータと0.4GFlops/s計算負荷のみを用いて,ほぼ最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-11-27T16:03:42Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Noise-aware Speech Enhancement using Diffusion Probabilistic Model [35.17225451626734]
拡散モデルにおける逆過程を導出する雑音固有情報を抽出する雑音認識音声強調(NASE)手法を提案する。
NASEは任意の拡散SEモデルに一般化できるプラグイン・アンド・プレイモジュールであることが示されている。
論文 参考訳(メタデータ) (2023-07-16T12:46:11Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。