論文の概要: PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation
- arxiv url: http://arxiv.org/abs/2408.07547v1
- Date: Wed, 14 Aug 2024 13:36:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 13:03:36.513750
- Title: PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation
- Title(参考訳): 周期波:高密度波形生成のための多周流整合
- Authors: Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee,
- Abstract要約: そこで我々は,新しい普遍波形生成モデルである PeriodWave を提案する。
波形信号の周期的特徴を把握できる周期的フローマッチング推定器を提案する。
また、周期的バッチ推論によりフィードフォワード並列化が可能な1つの周期条件ユニバーサル推定器を提案する。
- 参考スコア(独自算出の注目度): 37.35829410807451
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, universal waveform generation tasks have been investigated conditioned on various out-of-distribution scenarios. Although GAN-based methods have shown their strength in fast waveform generation, they are vulnerable to train-inference mismatch scenarios such as two-stage text-to-speech. Meanwhile, diffusion-based models have shown their powerful generative performance in other domains; however, they stay out of the limelight due to slow inference speed in waveform generation tasks. Above all, there is no generator architecture that can explicitly disentangle the natural periodic features of high-resolution waveform signals. In this paper, we propose PeriodWave, a novel universal waveform generation model. First, we introduce a period-aware flow matching estimator that can capture the periodic features of the waveform signal when estimating the vector fields. Additionally, we utilize a multi-period estimator that avoids overlaps to capture different periodic features of waveform signals. Although increasing the number of periods can improve the performance significantly, this requires more computational costs. To reduce this issue, we also propose a single period-conditional universal estimator that can feed-forward parallel by period-wise batch inference. Additionally, we utilize discrete wavelet transform to losslessly disentangle the frequency information of waveform signals for high-frequency modeling, and introduce FreeU to reduce the high-frequency noise for waveform generation. The experimental results demonstrated that our model outperforms the previous models both in Mel-spectrogram reconstruction and text-to-speech tasks. All source code will be available at \url{https://github.com/sh-lee-prml/PeriodWave}.
- Abstract(参考訳): 近年,様々なアウト・オブ・ディストリビューションシナリオにおいて,普遍的な波形生成タスクが検討されている。
GANベースの手法は高速波形生成の強みを示しているが、2段階のテキスト音声のような列車間ミスマッチのシナリオには弱い。
一方、拡散に基づくモデルは、他の領域において強力な生成性能を示してきたが、波形生成タスクにおける推論速度の遅いため、ライムライトから外れている。
とりわけ、高分解能波形信号の自然な周期的特徴を明示的に切り離すことができるジェネレータアーキテクチャは存在しない。
本稿では,新しいユニバーサル波形生成モデルである PeriodWave を提案する。
まず、ベクトル場を推定する際、波形信号の周期的特徴を把握できる周期的フローマッチング推定器を提案する。
さらに、重なりを避ける多周期推定器を用いて、波形信号の異なる周期的特徴を捉える。
期間を増やすことで性能が大幅に向上するが、計算コストは増大する。
また,この問題を解決するために,周期的バッチ推論によりフィード・フォワード並列化が可能な単一周期条件の普遍的推定器を提案する。
さらに、離散ウェーブレット変換を用いて、波形信号の周波数情報を損失なく非干渉的に高周波モデリングし、FreeUを導入し、波形生成のための高周波ノイズを低減する。
実験の結果,Mel-spectrogram再構成とテキスト音声タスクにおいて,従来のモデルよりも優れた性能を示した。
すべてのソースコードは \url{https://github.com/sh-lee-prml/PeriodWave} で入手できる。
関連論文リスト
- Multi-scale Generative Modeling for Fast Sampling [38.570968785490514]
ウェーブレット領域では、特に高周波係数のスパース表現が独特な課題に直面している。
本稿では、低周波帯と高周波帯を扱うための異なる戦略を用いるウェーブレット領域におけるマルチスケール生成モデルを提案する。
理論的解析と実験結果により,本モデルは性能を著しく向上させ,トレーニング可能なパラメータの数,サンプリングステップ,時間を削減する。
論文 参考訳(メタデータ) (2024-11-14T11:01:45Z) - Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization [37.35829410807451]
本稿では,逆流マッチング最適化による高忠実かつ高効率な波形生成モデルである PeriodWave-Turbo を提案する。
さまざまな客観的メトリクスで最先端のパフォーマンスを達成するには、1,000ステップの微調整しか必要ありません。
PeriodWave のバックボーンを 29M から 70M のパラメータにスケールアップすることで、一般化を改善することで、 PeriodWave-Turbo は前例のない性能を実現している。
論文 参考訳(メタデータ) (2024-08-15T08:34:00Z) - RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction [12.64898580131053]
本稿では,メルスペクトルや離散音響トークンから高忠実度音声波形を再構成する,最先端マルチバンド整流流法RFWaveを紹介する。
RFWaveは複雑なスペクトログラムを独自に生成し、フレームレベルで動作し、全てのサブバンドを同時に処理して効率を向上する。
実験により、RFWaveは優れた再構成品質を提供するだけでなく、計算効率も非常に優れており、GPU上でのオーディオ生成は、リアルタイムよりも最大160倍高速であることがわかった。
論文 参考訳(メタデータ) (2024-03-08T03:16:47Z) - DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform
Generation [25.968115316199246]
本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。
我々のモデルは自己回帰的であり、重なり合うフレームを生成し、各フレームは以前に生成されたフレームの一部に条件付けされる。
実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して,高品質な音声を生成することが示された。
論文 参考訳(メタデータ) (2023-10-02T17:42:22Z) - WFTNet: Exploiting Global and Local Periodicity in Long-term Time Series
Forecasting [61.64303388738395]
本稿では,長期連続予測のためのWavelet-Fourier Transform Network (WFTNet)を提案する。
さまざまな時系列データセットのテストでは、WFTNetは他の最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-09-20T13:44:18Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - PeriodNet: A non-autoregressive waveform generation model with a
structure separating periodic and aperiodic components [32.3009716052971]
音声波形の周期成分と非周期成分をモデル化するための新しいモデル構造を有する非自己回帰(非ar)波形生成モデルを提案する。
非ar波形生成モデルは、音声波形を並列に生成することができ、音響特徴を条件付けして音声ボコーダとして使用できる。
論文 参考訳(メタデータ) (2021-02-15T19:00:08Z) - WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文 参考訳(メタデータ) (2020-09-02T17:44:10Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。