論文の概要: SE-Bridge: Speech Enhancement with Consistent Brownian Bridge
- arxiv url: http://arxiv.org/abs/2305.13796v1
- Date: Tue, 23 May 2023 08:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 18:07:11.101323
- Title: SE-Bridge: Speech Enhancement with Consistent Brownian Bridge
- Title(参考訳): SE-Bridge: 一貫性のあるブラウン橋による音声強調
- Authors: Zhibin Qiu, Mengfan Fu, Fuchun Sun, Gulila Altenbek, Hao Huang
- Abstract要約: 音声強調(SE)の新しい手法であるSE-Bridgeを提案する。
提案手法は,同一のPF-ODE軌道上の任意の音声状態が同一の初期状態に対応することを保証する一貫性モデルに基づく。
Brownian Bridgeプロセスを統合することで、モデルは敵の訓練なしに高信頼度音声サンプルを生成することができる。
- 参考スコア(独自算出の注目度): 18.37042387650827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose SE-Bridge, a novel method for speech enhancement (SE). After
recently applying the diffusion models to speech enhancement, we can achieve
speech enhancement by solving a stochastic differential equation (SDE). Each
SDE corresponds to a probabilistic flow ordinary differential equation
(PF-ODE), and the trajectory of the PF-ODE solution consists of the speech
states at different moments. Our approach is based on consistency model that
ensure any speech states on the same PF-ODE trajectory, correspond to the same
initial state. By integrating the Brownian Bridge process, the model is able to
generate high-intelligibility speech samples without adversarial training. This
is the first attempt that applies the consistency models to SE task, achieving
state-of-the-art results in several metrics while saving 15 x the time required
for sampling compared to the diffusion-based baseline. Our experiments on
multiple datasets demonstrate the effectiveness of SE-Bridge in SE.
Furthermore, we show through extensive experiments on downstream tasks,
including Automatic Speech Recognition (ASR) and Speaker Verification (SV),
that SE-Bridge can effectively support multiple downstream tasks.
- Abstract(参考訳): 音声強調(SE)の新しい手法であるSE-Bridgeを提案する。
近年,拡散モデルを音声強調に適用し,確率微分方程式(sde)を解いて音声強調を実現する。
各SDEは確率フロー常微分方程式(PF-ODE)に対応し、PF-ODE解の軌道は異なる時点の音声状態からなる。
提案手法は,同一PF-ODE軌道上の任意の音声状態が同一初期状態に対応することを保証する一貫性モデルに基づく。
Brownian Bridgeプロセスを統合することで、モデルは敵の訓練なしに高信頼度音声サンプルを生成することができる。
これは、seタスクに一貫性モデルを適用する最初の試みであり、分散ベースのベースラインと比較してサンプリングに要する15倍の時間を節約しながら、最先端の結果を複数のメトリクスで達成する。
複数のデータセットに対する実験により,SE-Bridgeの有効性が示された。
さらに,音声自動認識(ASR)や話者検証(SV)など,下流タスクに対する広範囲な実験を通じて,SE-Bridgeは複数の下流タスクを効果的にサポートできることを示す。
関連論文リスト
- Gaussian Mixture Solvers for Diffusion Models [84.83349474361204]
本稿では,拡散モデルのためのGMSと呼ばれる,SDEに基づく新しい解法について紹介する。
画像生成およびストロークベース合成におけるサンプル品質の観点から,SDEに基づく多くの解法よりも優れる。
論文 参考訳(メタデータ) (2023-11-02T02:05:38Z) - Diffusion Conditional Expectation Model for Efficient and Robust Target
Speech Extraction [73.43534824551236]
ターゲット音声抽出(TSE)のための条件拡散予測モデル(DCEM)という効率的な生成手法を提案する。
ノイズとクリーンな条件の両方で、マルチとシングルスピーカーのシナリオを処理できる。
本手法は,従来の手法よりも侵入的指標と非侵入的指標の両方で優れていた。
論文 参考訳(メタデータ) (2023-09-25T04:58:38Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Variance-Preserving-Based Interpolation Diffusion Models for Speech
Enhancement [53.2171981279647]
本稿では,VP-および分散拡散(VE)に基づく拡散法の両方をカプセル化するフレームワークを提案する。
本研究では,拡散モデルで発生する一般的な困難を解析し,性能の向上とモデルトレーニングの容易化を図る。
我々は,提案手法の有効性を示すために,公開ベンチマークを用いたいくつかの手法によるモデルの評価を行った。
論文 参考訳(メタデータ) (2023-06-14T14:22:22Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Diffusion-Based Voice Conversion with Fast Maximum Likelihood Sampling
Scheme [4.053320933149689]
最も難しいのは、ソース話者とターゲット話者の両方がトレーニングデータセットに属さない場合、最も一般的な場合において、1つの参照発話のみからターゲット音声をコピーすることである。
拡散確率モデルに基づくスケーラブルな高品質なソリューションを提案し、最先端のワンショット音声変換手法と比較して優れた品質を示す。
論文 参考訳(メタデータ) (2021-09-28T15:48:22Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。