論文の概要: HiFTNet: A Fast High-Quality Neural Vocoder with Harmonic-plus-Noise
Filter and Inverse Short Time Fourier Transform
- arxiv url: http://arxiv.org/abs/2309.09493v1
- Date: Mon, 18 Sep 2023 05:30:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 15:01:45.172619
- Title: HiFTNet: A Fast High-Quality Neural Vocoder with Harmonic-plus-Noise
Filter and Inverse Short Time Fourier Transform
- Title(参考訳): HiFTNet:高調波+雑音フィルタと逆短周期フーリエ変換を備えた高速高品質ニューラルヴォコーダ
- Authors: Yinghao Aaron Li, Cong Han, Xilin Jiang, Nima Mesgarani
- Abstract要約: 時間周波数領域に高調波+雑音源フィルタを組み込んだiSTFTNet(HiFTNet)の拡張を提案する。
LJSpeech の主観評価では,iSTFTNet と HiFi-GAN のどちらよりも優れていた。
私たちの研究は、効率的で高品質なニューラルボコーディングのための新しいベンチマークを設定し、リアルタイムアプリケーションへの道を開いた。
- 参考スコア(独自算出の注目度): 21.896817015593122
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in speech synthesis have leveraged GAN-based networks
like HiFi-GAN and BigVGAN to produce high-fidelity waveforms from
mel-spectrograms. However, these networks are computationally expensive and
parameter-heavy. iSTFTNet addresses these limitations by integrating inverse
short-time Fourier transform (iSTFT) into the network, achieving both speed and
parameter efficiency. In this paper, we introduce an extension to iSTFTNet,
termed HiFTNet, which incorporates a harmonic-plus-noise source filter in the
time-frequency domain that uses a sinusoidal source from the fundamental
frequency (F0) inferred via a pre-trained F0 estimation network for fast
inference speed. Subjective evaluations on LJSpeech show that our model
significantly outperforms both iSTFTNet and HiFi-GAN, achieving
ground-truth-level performance. HiFTNet also outperforms BigVGAN-base on
LibriTTS for unseen speakers and achieves comparable performance to BigVGAN
while being four times faster with only $1/6$ of the parameters. Our work sets
a new benchmark for efficient, high-quality neural vocoding, paving the way for
real-time applications that demand high quality speech synthesis.
- Abstract(参考訳): 音声合成の最近の進歩は、HiFi-GANやBigVGANのようなGANベースのネットワークを利用して、メルスペクトルから高忠実度波形を生成する。
しかし、これらのネットワークは計算コストが高く、パラメータが重い。
iSTFTNetは、逆ショートタイムフーリエ変換(iSTFT)をネットワークに統合することでこれらの制限に対処し、速度とパラメータ効率の両方を達成する。
本稿では,基本周波数(f0)からの正弦波源を用いた時間周波数領域に高調波プラスノイズ源フィルタを組み込んだistftnetの拡張を,事前学習したf0推定ネットワークを用いて予測し,予測速度を高速化する。
LJSpeech の主観評価では,iSTFTNet と HiFi-GAN の両モデルが有意に優れ,基調性能が向上した。
HiFTNetはまた、LibriTTSのBigVGANベースよりも優れており、パラメータのたった1/6ドルで4倍高速でBigVGANに匹敵するパフォーマンスを実現している。
私たちの研究は、高品質な音声合成を必要とするリアルタイムアプリケーションのための、効率的で高品質なニューラルヴォコーディングのための新しいベンチマークを設定しています。
関連論文リスト
- OFDM-Standard Compatible SC-NOFS Waveforms for Low-Latency and Jitter-Tolerance Industrial IoT Communications [53.398544571833135]
この研究は、スペクトル的に効率的な不規則なSinc (irSinc) 整形法を提案し、1924年に従来のSincを再考した。
irSincは、誤差性能を犠牲にすることなくスペクトル効率が向上した信号を生成する。
我々の信号は、5G標準信号構成により、同じスペクトル帯域内で高速なデータ伝送を実現する。
論文 参考訳(メタデータ) (2024-06-07T09:20:30Z) - Fourier Controller Networks for Real-Time Decision-Making in Embodied Learning [42.862705980039784]
Transformerは、時間変化のある特徴をモデル化するための強化学習を約束している。
データ効率の低下と推論遅延の低さに悩まされている。
本稿では,周波数領域の新しい視点から課題を考察する。
論文 参考訳(メタデータ) (2024-05-30T09:43:59Z) - WFTNet: Exploiting Global and Local Periodicity in Long-term Time Series
Forecasting [61.64303388738395]
本稿では,長期連続予測のためのWavelet-Fourier Transform Network (WFTNet)を提案する。
さまざまな時系列データセットのテストでは、WFTNetは他の最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-09-20T13:44:18Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - FastFit: Towards Real-Time Iterative Neural Vocoder by Replacing U-Net
Encoder With Multiple STFTs [1.8047694351309207]
FastFitは、U-Netエンコーダを複数の短時間フーリエ変換(STFT)に置き換える新しいニューラルボコーダアーキテクチャである。
我々は,FastFitが高音質を維持しつつ,ベースラインベースボコーダの生成速度を約2倍に向上することを示す。
論文 参考訳(メタデータ) (2023-05-18T09:05:17Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Source-Filter HiFi-GAN: Fast and Pitch Controllable High-Fidelity Neural
Vocoder [29.219277429553788]
音源フィルタ理論をHiFi-GANに導入し,高い音質とピッチ制御性を実現する。
提案手法は,HiFi-GAN と uSFGAN を1つのCPU上での音声品質と合成速度において,歌声生成において優れる。
uSFGAN vocoder とは異なり,提案手法はリアルタイムアプリケーションやエンドツーエンドシステムに容易に適用・統合できる。
論文 参考訳(メタデータ) (2022-10-27T15:19:09Z) - WOLONet: Wave Outlooker for Efficient and High Fidelity Speech Synthesis [4.689359813220365]
本稿では,WOLONetという,効果的で軽量なニューラルボコーダを提案する。
本稿では,Sinusoidally activated dynamic kernel weightsを用いた,位置可変,チャネル非依存,奥行き動的畳み込みカーネルを用いた軽量ブロックを開発する。
その結果、我々のWOLONetは2つのニューラルSOTAボコーダ、HiFiGANとUnivNetよりも少ないパラメータを必要としながら、最高の生成品質を実現していることがわかった。
論文 参考訳(メタデータ) (2022-06-20T17:58:52Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Fourier Space Losses for Efficient Perceptual Image Super-Resolution [131.50099891772598]
提案した損失関数の適用のみで,最近導入された効率的なジェネレータアーキテクチャの性能向上が可能であることを示す。
フーリエ空間における周波数に対する損失の直接的強調は知覚的画質を著しく向上させることを示す。
訓練されたジェネレータは、最先端の知覚的SR法である RankSRGAN と SRFlow よりも2.4倍、48倍高速である。
論文 参考訳(メタデータ) (2021-06-01T20:34:52Z) - A non-causal FFTNet architecture for speech enhancement [18.583426581177278]
FFTNetに基づく音声強調のための新しい並列・非因果・浅部波形領域アーキテクチャを提案する。
浅いネットワークを提案し、特定の制限内で非因果性を適用することで、提案されたFFTNetは、他のニューラルネットワークベースのアプローチと比較してはるかに少ないパラメータを使用する。
論文 参考訳(メタデータ) (2020-06-08T10:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。