論文の概要: A Study on Speech Enhancement Based on Diffusion Probabilistic Model
- arxiv url: http://arxiv.org/abs/2107.11876v1
- Date: Sun, 25 Jul 2021 19:23:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 15:45:02.844869
- Title: A Study on Speech Enhancement Based on Diffusion Probabilistic Model
- Title(参考訳): 拡散確率モデルに基づく音声強調の検討
- Authors: Yen-Ju Lu, Yu Tsao and Shinji Watanabe
- Abstract要約: 雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 63.38586161802788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion probabilistic models have demonstrated an outstanding capability to
model natural images and raw audio waveforms through a paired diffusion and
reverse processes. The unique property of the reverse process (namely,
eliminating non-target signals from the Gaussian noise and noisy signals) could
be utilized to restore clean signals. Based on this property, we propose a
diffusion probabilistic model-based speech enhancement (DiffuSE) model that
aims to recover clean speech signals from noisy signals. The fundamental
architecture of the proposed DiffuSE model is similar to that of DiffWave--a
high-quality audio waveform generation model that has a relatively low
computational cost and footprint. To attain better enhancement performance, we
designed an advanced reverse process, termed the supportive reverse process,
which adds noisy speech in each time-step to the predicted speech. The
experimental results show that DiffuSE yields performance that is comparable to
related audio generative models on the standardized Voice Bank corpus SE task.
Moreover, relative to the generally suggested full sampling schedule, the
proposed supportive reverse process especially improved the fast sampling,
taking few steps to yield better enhancement results over the conventional full
step inference process.
- Abstract(参考訳): 拡散確率モデルは、対の拡散と逆過程を通じて自然画像と生音声波形をモデル化する優れた能力を示した。
逆過程のユニークな特性(すなわちガウスノイズと雑音信号から非ターゲット信号を排除する)は、クリーン信号の復元に利用することができる。
この特性に基づいて,ノイズ信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調(DiffuSE)モデルを提案する。
提案したDiffuSEモデルの基本構造は、比較的計算コストとフットプリントの低い高品質なオーディオ波形生成モデルであるDiffWaveと似ている。
改良性能を向上させるために,予測音声に各時間ステップに雑音を付加する逆処理を,支援的逆処理と呼ぶ先進的な逆処理法を考案した。
実験の結果、ディフュージョンは音声バンクコーパスseタスクにおける関連する音声生成モデルに匹敵する性能をもたらすことがわかった。
さらに, 提案した全サンプリングスケジュールに対して, 提案した支持逆プロセスは, 特に高速サンプリングを改良し, 従来の全ステップ推論プロセスよりも改善結果を得るために, 数ステップを要した。
関連論文リスト
- Diffusion-based Unsupervised Audio-visual Speech Enhancement [26.937216751657697]
本稿では,新しい教師なし音声強調(AVSE)手法を提案する。
拡散に基づく音声視覚音声生成モデルと非負行列分解(NMF)ノイズモデルを組み合わせる。
実験結果から,提案手法は音声のみのアプローチより優れているだけでなく,近年の教師付き AVSE 法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-10-04T12:22:54Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。
本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-10T18:58:01Z) - CRASH: Raw Audio Score-based Generative Modeling for Controllable
High-resolution Drum Sound Synthesis [0.0]
非条件生音声合成のための新しいスコアベース生成モデルを提案する。
提案手法は,よりフレキシブルな生成機能を提供しながら,生音声におけるGANベースの手法とのギャップを埋める。
論文 参考訳(メタデータ) (2021-06-14T13:48:03Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。