論文の概要: Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization
- arxiv url: http://arxiv.org/abs/2408.08019v1
- Date: Thu, 15 Aug 2024 08:34:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 14:26:13.380594
- Title: Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization
- Title(参考訳): 逆流マッチング最適化による高忠実度波形生成の高速化
- Authors: Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee,
- Abstract要約: 本稿では,逆流マッチング最適化による高忠実かつ高効率な波形生成モデルである PeriodWave-Turbo を提案する。
さまざまな客観的メトリクスで最先端のパフォーマンスを達成するには、1,000ステップの微調整しか必要ありません。
PeriodWave のバックボーンを 29M から 70M のパラメータにスケールアップすることで、一般化を改善することで、 PeriodWave-Turbo は前例のない性能を実現している。
- 参考スコア(独自算出の注目度): 37.35829410807451
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces PeriodWave-Turbo, a high-fidelity and high-efficient waveform generation model via adversarial flow matching optimization. Recently, conditional flow matching (CFM) generative models have been successfully adopted for waveform generation tasks, leveraging a single vector field estimation objective for training. Although these models can generate high-fidelity waveform signals, they require significantly more ODE steps compared to GAN-based models, which only need a single generation step. Additionally, the generated samples often lack high-frequency information due to noisy vector field estimation, which fails to ensure high-frequency reproduction. To address this limitation, we enhance pre-trained CFM-based generative models by incorporating a fixed-step generator modification. We utilized reconstruction losses and adversarial feedback to accelerate high-fidelity waveform generation. Through adversarial flow matching optimization, it only requires 1,000 steps of fine-tuning to achieve state-of-the-art performance across various objective metrics. Moreover, we significantly reduce inference speed from 16 steps to 2 or 4 steps. Additionally, by scaling up the backbone of PeriodWave from 29M to 70M parameters for improved generalization, PeriodWave-Turbo achieves unprecedented performance, with a perceptual evaluation of speech quality (PESQ) score of 4.454 on the LibriTTS dataset. Audio samples, source code and checkpoints will be available at https://github.com/sh-lee-prml/PeriodWave.
- Abstract(参考訳): 本稿では,逆流マッチング最適化による高忠実かつ高効率な波形生成モデルである PeriodWave-Turbo を提案する。
近年,条件付きフローマッチング(CFM)生成モデルが波形生成タスクに成功し,単一のベクトル場推定目標をトレーニングに活用している。
これらのモデルは高忠実度波形信号を生成することができるが、単一の生成ステップしか必要としないGANベースのモデルに比べて、ODEのステップがかなり必要である。
さらに、生成したサンプルはノイズベクトル場推定による高周波情報を欠くことが多く、高周波再生の確保に失敗する。
この制限に対処するために、固定ステップジェネレータを組み込むことにより、事前訓練されたCFMベースの生成モデルを強化する。
我々は,高忠実度波形生成を高速化するために,再建損失と対向フィードバックを利用した。
逆流整合最適化により、様々な客観的指標をまたいだ最先端のパフォーマンスを達成するためには、1,000ステップの微調整しか必要としない。
さらに、推論速度を16段階から2段階または4段階に大幅に削減する。
さらに、一般化を改善するために、周期波のバックボーンを29Mから70Mパラメータにスケールアップすることにより、LibriTTSデータセット上での音声品質(PESQ)スコアの4.454を知覚的に評価し、前例のない性能を達成する。
オーディオサンプル、ソースコード、チェックポイントはhttps://github.com/sh-lee-prml/PeriodWave.comで入手できる。
関連論文リスト
- FM-TS: Flow Matching for Time Series Generation [71.31148785577085]
本稿では、時系列生成のための修正フローマッチングベースのフレームワークFM-TSを紹介する。
FM-TSは、トレーニングと推論の点でより効率的である。
我々は、太陽予測とMuJoCo計算タスクにおいて優れた性能を達成した。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation [37.35829410807451]
そこで我々は,新しい普遍波形生成モデルである PeriodWave を提案する。
波形信号の周期的特徴を把握できる周期的フローマッチング推定器を提案する。
また、周期的バッチ推論によりフィードフォワード並列化が可能な1つの周期条件ユニバーサル推定器を提案する。
論文 参考訳(メタデータ) (2024-08-14T13:36:17Z) - RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction [12.64898580131053]
本稿では,メルスペクトルや離散音響トークンから高忠実度音声波形を再構成する,最先端マルチバンド整流流法RFWaveを紹介する。
RFWaveは複雑なスペクトログラムを独自に生成し、フレームレベルで動作し、全てのサブバンドを同時に処理して効率を向上する。
実験により、RFWaveは優れた再構成品質を提供するだけでなく、計算効率も非常に優れており、GPU上でのオーディオ生成は、リアルタイムよりも最大160倍高速であることがわかった。
論文 参考訳(メタデータ) (2024-03-08T03:16:47Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - High-Fidelity and Low-Latency Universal Neural Vocoder based on
Multiband WaveRNN with Data-Driven Linear Prediction for Discrete Waveform
Modeling [38.828260316517536]
本稿では、離散波形モデリング(MWDLP)のためのデータ駆動線形予測を用いたマルチバンドWaveRNNに基づく新しいユニバーサルニューラルネットワークボコーダフレームワークを提案する。
提案したMWDLPフレームワークは、クリーンでノイズの多い残響条件を含む300人の話者のトレーニングデータに対して、見知らぬ話者や/または言語に対して高忠実な合成音声を生成することを示す。
論文 参考訳(メタデータ) (2021-05-20T16:02:45Z) - DiffWave: A Versatile Diffusion Model for Audio Synthesis [35.406438835268816]
DiffWaveは条件および非条件波形生成のための多目的拡散確率モデルである。
メルスペクトログラムに条件付けされたニューラル・ヴォイコーディングを含む、様々な波形生成タスクで高忠実なオーディオを生成する。
これは、非条件生成課題において、自己回帰およびGANベースの波形モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-09-21T11:20:38Z) - WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文 参考訳(メタデータ) (2020-09-02T17:44:10Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。