論文の概要: Restoring degraded speech via a modified diffusion model
- arxiv url: http://arxiv.org/abs/2104.11347v1
- Date: Thu, 22 Apr 2021 23:03:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 12:54:07.175022
- Title: Restoring degraded speech via a modified diffusion model
- Title(参考訳): 修正拡散モデルによる劣化音声の復元
- Authors: Jianwei Zhang, Suren Jayasuriya, Visar Berisha
- Abstract要約: 本稿では、元の音声信号の復元を目的としたDiffWaveモデルの修正に基づくニューラルネットワークアーキテクチャを提案する。
DiffWave のmel-spectrum upsampler をディープ CNN upsampler に置き換えます。
提案モデルにより,複数の実験において音声品質(元はベースラインとしてのDiffWaveモデル)が改善された。
- 参考スコア(独自算出の注目度): 28.90259510094427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are many deterministic mathematical operations (e.g. compression,
clipping, downsampling) that degrade speech quality considerably. In this paper
we introduce a neural network architecture, based on a modification of the
DiffWave model, that aims to restore the original speech signal. DiffWave, a
recently published diffusion-based vocoder, has shown state-of-the-art
synthesized speech quality and relatively shorter waveform generation times,
with only a small set of parameters. We replace the mel-spectrum upsampler in
DiffWave with a deep CNN upsampler, which is trained to alter the degraded
speech mel-spectrum to match that of the original speech. The model is trained
using the original speech waveform, but conditioned on the degraded speech
mel-spectrum. Post-training, only the degraded mel-spectrum is used as input
and the model generates an estimate of the original speech. Our model results
in improved speech quality (original DiffWave model as baseline) on several
different experiments. These include improving the quality of speech degraded
by LPC-10 compression, AMR-NB compression, and signal clipping. Compared to the
original DiffWave architecture, our scheme achieves better performance on
several objective perceptual metrics and in subjective comparisons.
Improvements over baseline are further amplified in a out-of-corpus evaluation
setting.
- Abstract(参考訳): 多くの決定論的数学的操作(例)がある。
圧縮、クリップ、ダウンサンプリング) 音声品質を著しく低下させる。
本稿では,元々の音声信号を復元することを目的とした,差分モデルの修正に基づくニューラルネットワークアーキテクチャを提案する。
最近発表された拡散ベースのボコーダであるDiffWaveは、短いパラメータセットで、最先端の合成音声品質と比較的短い波形生成時間を示した。
diffwave の mel-spectrum upsampler を deep cnn upsampler に置き換える。
モデルは、元の音声波形を用いて訓練されるが、劣化した音声メルスペクトルに基づく。
訓練後、劣化したメルスペクトラムのみを入力とし、モデルが原音声の推定を生成する。
提案モデルにより,複数の実験において音声品質(元はベースラインとしてのDiffWaveモデル)が改善された。
これには、lpc-10圧縮による音声品質の向上、amr-nb圧縮、信号クリッピングが含まれる。
本手法は元々のdiffwaveアーキテクチャと比較して,複数の客観的な知覚指標と主観的比較において優れた性能を実現する。
アウト・オブ・コーパス評価設定では、ベースラインの改善がさらに増幅される。
関連論文リスト
- DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform
Generation [25.968115316199246]
本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。
我々のモデルは自己回帰的であり、重なり合うフレームを生成し、各フレームは以前に生成されたフレームの一部に条件付けされる。
実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して,高品質な音声を生成することが示された。
論文 参考訳(メタデータ) (2023-10-02T17:42:22Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Audio-Visual Speech Enhancement with Score-Based Generative Models [22.559617939136505]
本稿では,スコアベース生成モデルを利用した音声・視覚音声強調システムを提案する。
我々は,リップリーディングを微調整した自己超視的学習モデルから得られる音声-視覚的埋め込みを利用する。
実験により,提案した音声・視覚音声強調システムにより,音声の質が向上することが確認された。
論文 参考訳(メタデータ) (2023-06-02T10:43:42Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文 参考訳(メタデータ) (2020-09-02T17:44:10Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks [23.88788382262305]
時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-02T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。