論文の概要: SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping
- arxiv url: http://arxiv.org/abs/2203.16749v1
- Date: Thu, 31 Mar 2022 02:08:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 15:18:23.961071
- Title: SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping
- Title(参考訳): specgrad: 拡散確率モデルに基づく適応型雑音スペクトル整形型ニューラルボコーダ
- Authors: Yuma Koizumi and Heiga Zen and Kohei Yatabe and Nanxin Chen and
Michiel Bacchiani
- Abstract要約: SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
- 参考スコア(独自算出の注目度): 51.698273019061645
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Neural vocoder using denoising diffusion probabilistic model (DDPM) has been
improved by adaptation of the diffusion noise distribution to given acoustic
features. In this study, we propose SpecGrad that adapts the diffusion noise so
that its time-varying spectral envelope becomes close to the conditioning
log-mel spectrogram. This adaptation by time-varying filtering improves the
sound quality especially in the high-frequency bands. It is processed in the
time-frequency domain to keep the computational cost almost the same as the
conventional DDPM-based neural vocoders. Experimental results showed that
SpecGrad generates higher-fidelity speech waveform than conventional DDPM-based
neural vocoders in both analysis-synthesis and speech enhancement scenarios.
Audio demos are available at wavegrad.github.io/specgrad/.
- Abstract(参考訳): denoising diffusion probabilistic model (ddpm) を用いたニューラルボコーダは, 拡散雑音分布を与えられた音響特性に適応することにより改善されている。
本研究では,スペクトル包絡が条件付き対数メル分光図に近いように拡散雑音を適応させるスペックグラードを提案する。
この時間変化フィルタリングによる適応は、特に高周波帯域における音質を向上させる。
従来のddpmベースのニューラルボコーダとほぼ同じ計算コストを維持するために、時間周波数領域で処理される。
実験結果から, SpecGrad は従来の DDPM ベースのニューラルボコーダよりも高忠実度音声波形を生成することがわかった。
オーディオデモはwavegrad.github.io/specgrad/で見ることができる。
関連論文リスト
- PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a
Diffusion Probabilistic Model [12.292092677396349]
本稿では,拡散確率モデル(DDPM)に基づくニューラルボコーダを提案する。
本モデルは,音声波形の周期的構造を明示的な周期的信号を組み込むことで正確に把握することを目的としている。
実験の結果,従来のDDPM方式のニューラルボコーダよりも音質が向上し,ピッチ制御が向上した。
論文 参考訳(メタデータ) (2024-02-22T16:47:15Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - RefineGAN: Universally Generating Waveform Better than Ground Truth with
Highly Accurate Pitch and Intensity Responses [15.599745604729842]
高速なリアルタイム生成機能を備えた高忠実性ニューラルボコーダRefineGANを提案する。
我々は,マルチスケールのスペクトログラムに基づく損失関数を用いたピッチ誘導型精細アーキテクチャを用いて,トレーニングプロセスの安定化を図る。
また, スピーカが生み出す欠陥を除去することにより, 波形再構成時の忠実度も向上することを示した。
論文 参考訳(メタデータ) (2021-11-01T14:12:54Z) - PriorGrad: Improving Conditional Denoising Diffusion Models with
Data-Driven Adaptive Prior [103.00403682863427]
条件拡散モデルの効率を改善するために, PreGrad を提案する。
PriorGradはデータとパラメータの効率を向上し、品質を向上する。
論文 参考訳(メタデータ) (2021-06-11T14:04:03Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - Audio Dequantization for High Fidelity Audio Generation in Flow-based
Neural Vocoder [29.63675159839434]
フローベースのニューラルボコーダは、リアルタイム音声生成タスクにおいて大幅に改善されている。
フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。
論文 参考訳(メタデータ) (2020-08-16T09:37:18Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。