論文の概要: HiFi-GAN: Generative Adversarial Networks for Efficient and High
Fidelity Speech Synthesis
- arxiv url: http://arxiv.org/abs/2010.05646v2
- Date: Fri, 23 Oct 2020 09:12:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 08:19:37.713292
- Title: HiFi-GAN: Generative Adversarial Networks for Efficient and High
Fidelity Speech Synthesis
- Title(参考訳): HiFi-GAN:高精細・高精細音声合成のための生成逆ネットワーク
- Authors: Jungil Kong, Jaehyeon Kim, Jaekyoung Bae
- Abstract要約: 効率と高忠実度音声合成を実現するHiFi-GANを提案する。
単一話者データセットの主観的人的評価は,提案手法が人的品質と類似性を示すことを示している。
HiFi-GANの小さなフットプリントバージョンは、CPU上のリアルタイムよりも13.4倍高速なサンプルを生成する。
- 参考スコア(独自算出の注目度): 12.934180951771596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several recent work on speech synthesis have employed generative adversarial
networks (GANs) to produce raw waveforms. Although such methods improve the
sampling efficiency and memory usage, their sample quality has not yet reached
that of autoregressive and flow-based generative models. In this work, we
propose HiFi-GAN, which achieves both efficient and high-fidelity speech
synthesis. As speech audio consists of sinusoidal signals with various periods,
we demonstrate that modeling periodic patterns of an audio is crucial for
enhancing sample quality. A subjective human evaluation (mean opinion score,
MOS) of a single speaker dataset indicates that our proposed method
demonstrates similarity to human quality while generating 22.05 kHz
high-fidelity audio 167.9 times faster than real-time on a single V100 GPU. We
further show the generality of HiFi-GAN to the mel-spectrogram inversion of
unseen speakers and end-to-end speech synthesis. Finally, a small footprint
version of HiFi-GAN generates samples 13.4 times faster than real-time on CPU
with comparable quality to an autoregressive counterpart.
- Abstract(参考訳): 音声合成に関する最近の研究は、生波形を生成するためにGAN(Generative Adversarial Network)を用いている。
このような手法はサンプリング効率とメモリ使用量を改善するが、サンプルの品質はまだ自己回帰モデルやフローベース生成モデルには達していない。
本研究では,高忠実度音声合成を実現するHiFi-GANを提案する。
音声は様々な周期の正弦波信号から構成されるため,音声の周期パターンのモデル化がサンプル品質の向上に不可欠であることを示す。
単一話者データセットの主観評価(平均評価スコア, MOS)は, 提案手法が人間の品質と類似性を示し, 単一V100 GPUのリアルタイムよりも22.05kHzの高忠実度オーディオ167.9倍高速であることを示す。
さらに,非可視話者のメル-スペクトログラムインバージョンとエンドツーエンド音声合成に対するHiFi-GANの一般性を示す。
最後に、HiFi-GANの小さなフットプリントバージョンは、CPU上のリアルタイムよりも13.4倍高速なサンプルを生成する。
関連論文リスト
- Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency
Model [41.21042900853639]
本研究では,単一拡散サンプリングステップによる音声合成を実現する"Co"sistency "Mo"del-based "Speech"合成法,"CoMoSpeech"を提案する。
単一のサンプリングステップで音声録音を生成することで、CoMoSpeechはリアルタイムよりも150倍以上高速な推論速度を実現する。
論文 参考訳(メタデータ) (2023-05-11T15:51:46Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis [153.48507947322886]
HiFiSingerは、高忠実な歌声に対するSVSシステムである。
FastSpeechベースの音響モデルとParallel WaveGANベースのボコーダで構成されている。
実験の結果,HiFiSingerは高品質な歌声を合成することがわかった。
論文 参考訳(メタデータ) (2020-09-03T16:31:02Z) - VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested
Adversarial Network [9.274656542624658]
最近開発されたGANベースのボコーダであるMelGANは、音声波形をリアルタイムで生成する。
VocGANはMelGANとほぼ同じ速度であるが、出力波形の品質と一貫性を著しく向上させる。
実験では、VocGANはGTX 1080Ti GPUでは416.7倍、CPUでは3.24倍の速さで音声波形を合成する。
論文 参考訳(メタデータ) (2020-07-30T06:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。