論文の概要: Source-Filter HiFi-GAN: Fast and Pitch Controllable High-Fidelity Neural
Vocoder
- arxiv url: http://arxiv.org/abs/2210.15533v2
- Date: Mon, 31 Oct 2022 02:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 12:30:30.839453
- Title: Source-Filter HiFi-GAN: Fast and Pitch Controllable High-Fidelity Neural
Vocoder
- Title(参考訳): ソースフィルタHiFi-GAN:高速かつピッチ制御可能な高忠実性ニューラルボコーダ
- Authors: Reo Yoneyama, Yi-Chiao Wu, and Tomoki Toda
- Abstract要約: 音源フィルタ理論をHiFi-GANに導入し,高い音質とピッチ制御性を実現する。
提案手法は,HiFi-GAN と uSFGAN を1つのCPU上での音声品質と合成速度において,歌声生成において優れる。
uSFGAN vocoder とは異なり,提案手法はリアルタイムアプリケーションやエンドツーエンドシステムに容易に適用・統合できる。
- 参考スコア(独自算出の注目度): 29.219277429553788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our previous work, the unified source-filter GAN (uSFGAN) vocoder, introduced
a novel architecture based on the source-filter theory into the parallel
waveform generative adversarial network to achieve high voice quality and pitch
controllability. However, the high temporal resolution inputs result in high
computation costs. Although the HiFi-GAN vocoder achieves fast high-fidelity
voice generation thanks to the efficient upsampling-based generator
architecture, the pitch controllability is severely limited. To realize a fast
and pitch-controllable high-fidelity neural vocoder, we introduce the
source-filter theory into HiFi-GAN by hierarchically conditioning the resonance
filtering network on a well-estimated source excitation information. According
to the experimental results, our proposed method outperforms HiFi-GAN and
uSFGAN on a singing voice generation in voice quality and synthesis speed on a
single CPU. Furthermore, unlike the uSFGAN vocoder, the proposed method can be
easily adopted/integrated in real-time applications and end-to-end systems.
- Abstract(参考訳): 先行研究であるunified source-filter gan (usfgan) vocoderでは,音源フィルタ理論に基づく新しいアーキテクチャを並列波形生成逆ネットワークに導入し,高い音声品質とピッチ制御性を実現している。
しかし、時間分解能の高い入力は高い計算コストをもたらす。
HiFi-GANボコーダは、効率的なアップサンプリングベースジェネレータアーキテクチャにより高速な高忠実度音声生成を実現するが、ピッチ制御性は著しく制限されている。
高速かつピッチ制御可能な高忠実性ニューラルボコーダを実現するために,共振フィルタリングネットワークを適切に推定されたソース励磁情報に階層的に条件付けすることで,HiFi-GANにソースフィルタ理論を導入する。
実験結果から,提案手法は1CPUにおける歌声品質と合成速度において,HiFi-GANとuSFGANよりも優れていた。
さらに, uSFGAN vocoder とは異なり,提案手法はリアルタイムアプリケーションやエンドツーエンドシステムに容易に適用・統合できる。
関連論文リスト
- HiFTNet: A Fast High-Quality Neural Vocoder with Harmonic-plus-Noise
Filter and Inverse Short Time Fourier Transform [21.896817015593122]
時間周波数領域に高調波+雑音源フィルタを組み込んだiSTFTNet(HiFTNet)の拡張を提案する。
LJSpeech の主観評価では,iSTFTNet と HiFi-GAN のどちらよりも優れていた。
私たちの研究は、効率的で高品質なニューラルボコーディングのための新しいベンチマークを設定し、リアルタイムアプリケーションへの道を開いた。
論文 参考訳(メタデータ) (2023-09-18T05:30:15Z) - Framewise WaveGAN: High Speed Adversarial Vocoder in Time Domain with
Very Low Computational Complexity [23.49462995118466]
フレームワイズWaveGAN vocoderは、LPCNetのような自動回帰最大化ボコーダよりも1.2GFLOPSの非常に低い複雑さで高い品質を実現する。
これにより、GANボコーダはエッジや低消費電力デバイスでより実用的になる。
論文 参考訳(メタデータ) (2022-12-08T19:38:34Z) - WOLONet: Wave Outlooker for Efficient and High Fidelity Speech Synthesis [4.689359813220365]
本稿では,WOLONetという,効果的で軽量なニューラルボコーダを提案する。
本稿では,Sinusoidally activated dynamic kernel weightsを用いた,位置可変,チャネル非依存,奥行き動的畳み込みカーネルを用いた軽量ブロックを開発する。
その結果、我々のWOLONetは2つのニューラルSOTAボコーダ、HiFiGANとUnivNetよりも少ないパラメータを必要としながら、最高の生成品質を実現していることがわかった。
論文 参考訳(メタデータ) (2022-06-20T17:58:52Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - Unified Source-Filter GAN with Harmonic-plus-Noise Source Excitation
Generation [32.839539624717546]
本稿では,高調波・高調波源励振機構を備えた統一音源フィルタネットワークを提案する。
修正されたuSFGANは、音声制御性を維持しながら基本uSFGANの音質を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-12T12:41:15Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Frequency-bin entanglement from domain-engineered down-conversion [101.18253437732933]
フィルタや共振器の共振器を用いない離散周波数ビン絡みの単一パス源を提案する。
ドメインエンジニアリングされた非線形結晶を用いて、通信波長で8モードの周波数ビン絡み合った光源を生成する。
論文 参考訳(メタデータ) (2022-01-18T19:00:29Z) - Unified Source-Filter GAN: Unified Source-filter Network Based On
Factorization of Quasi-Periodic Parallel WaveGAN [36.12470085926042]
本稿では,単一のニューラルネットワークを用いたデータ駆動型ソースフィルタモデリング手法を提案する。
疑似周期並列波GANを分解して,uSFGAN (Unified Source-filter Generative Adversarial Network) と呼ばれるネットワークを開発した。
実験では、uSFGANがQPPWGやNSFなどの従来のニューラルボコーダを音声品質とピッチ制御性の両方で上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-10T02:38:26Z) - HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis [153.48507947322886]
HiFiSingerは、高忠実な歌声に対するSVSシステムである。
FastSpeechベースの音響モデルとParallel WaveGANベースのボコーダで構成されている。
実験の結果,HiFiSingerは高品質な歌声を合成することがわかった。
論文 参考訳(メタデータ) (2020-09-03T16:31:02Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。