論文の概要: Deformable Temporal Convolutional Networks for Monaural Noisy
Reverberant Speech Separation
- arxiv url: http://arxiv.org/abs/2210.15305v2
- Date: Fri, 28 Oct 2022 10:22:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 12:47:21.605280
- Title: Deformable Temporal Convolutional Networks for Monaural Noisy
Reverberant Speech Separation
- Title(参考訳): 雑音残響音声分離のための変形可能な時間畳み込みネットワーク
- Authors: William Ravenscroft and Stefan Goetze and Thomas Hain
- Abstract要約: 音声分離モデルは、多くの音声処理アプリケーションにおいて、個々の話者を分離するために使用される。
ディープラーニングモデルは、多くの音声分離ベンチマークにおける最先端(SOTA)結果につながることが示されている。
時間畳み込みネットワーク(TCN)として知られるそのようなモデルの1つは、音声分離タスクにおいて有望な結果を示している。
近年,TNの最適なRFは,音声信号の残響特性によって異なることが明らかにされている。
- 参考スコア(独自算出の注目度): 26.94528951545861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech separation models are used for isolating individual speakers in many
speech processing applications. Deep learning models have been shown to lead to
state-of-the-art (SOTA) results on a number of speech separation benchmarks.
One such class of models known as temporal convolutional networks (TCNs) has
shown promising results for speech separation tasks. A limitation of these
models is that they have a fixed receptive field (RF). Recent research in
speech dereverberation has shown that the optimal RF of a TCN varies with the
reverberation characteristics of the speech signal. In this work deformable
convolution is proposed as a solution to allow TCN models to have dynamic RFs
that can adapt to various reverberation times for reverberant speech
separation. The proposed models are capable of achieving an 11.1 dB average
scale-invariant signal-to-distortion ratio (SISDR) improvement over the input
signal on the WHAMR benchmark. A relatively small deformable TCN model of 1.3M
parameters is proposed which gives comparable separation performance to larger
and more computationally complex models.
- Abstract(参考訳): 音声分離モデルは、多くの音声処理アプリケーションで個々の話者を分離するために使用される。
ディープラーニングモデルは、多くの音声分離ベンチマークにおける最先端(SOTA)結果につながることが示されている。
時間畳み込みネットワーク(TCN)として知られるそのようなモデルの1つは、音声分離タスクにおいて有望な結果を示している。
これらのモデルの制限は、固定受容場(RF)を持つことである。
近年,TNの最適なRFは,音声信号の残響特性によって異なることが明らかにされている。
本研究では, 残響音声分離のための様々な残響時間に適応可能な動的RFをTCNモデルで実現するための解として, 変形可能な畳み込みを提案する。
提案するモデルは、whamrベンチマークの入力信号よりも11.1db平均スケール不変信号対歪比(sisdr)が向上する。
1.3Mパラメータの比較的小さな変形可能なTCNモデルが提案され、より大きくより複雑なモデルに匹敵する分離性能を与える。
関連論文リスト
- High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - Utterance Weighted Multi-Dilation Temporal Convolutional Networks for
Monaural Speech Dereverberation [26.94528951545861]
時間的畳み込みネットワーク(TCN)における標準深度分割畳み込みを置き換えるため、重み付き多重ディレーション深度分離畳み込みを提案する。
この重み付き多重拡散時間畳み込みネットワーク(WD-TCN)は、様々なモデル構成において、TCNを一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-17T15:56:31Z) - Prediction of speech intelligibility with DNN-based performance measures [9.883633991083789]
本稿では,自動音声認識(ASR)に基づく音声認識モデルを提案する。
ディープニューラルネットワーク(DNN)の音素確率と、これらの確率から単語エラー率を推定するパフォーマンス指標を組み合わせる。
提案モデルはラベルベースモデルとほぼ同等に動作し,ベースラインモデルよりも精度の高い予測を行う。
論文 参考訳(メタデータ) (2022-03-17T08:05:38Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - WaveCRN: An Efficient Convolutional Recurrent Neural Network for
End-to-end Speech Enhancement [31.236720440495994]
本稿では、WaveCRNと呼ばれる効率的なE2E SEモデルを提案する。
WaveCRNでは、音声の局所性特徴は畳み込みニューラルネットワーク(CNN)によって捉えられ、その局所性特徴の時間的シーケンシャル特性はスタック化された単純な繰り返し単位(SRU)によってモデル化される。
さらに、入力雑音音声の雑音成分をより効果的に抑制するために、隠れた層における特徴マップの強化を行う新しい制限された特徴マスキング(RFM)アプローチを導出する。
論文 参考訳(メタデータ) (2020-04-06T13:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。