論文の概要: Latent Flow Matching for Expressive Singing Voice Synthesis
- arxiv url: http://arxiv.org/abs/2601.00217v1
- Date: Thu, 01 Jan 2026 05:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.316919
- Title: Latent Flow Matching for Expressive Singing Voice Synthesis
- Title(参考訳): 表現型歌声合成のためのラテントフローマッチング
- Authors: Minhyeok Yun, Yong-Hoon Choi,
- Abstract要約: 条件変分オートエンコーダ(cVAE)に基づく歌声合成は、効率的な推論と強い音声品質を提供する。
本稿では,条件付きフローマッチング(CFM)を潜時空間に導入するFM-Singerを提案する。
韓国と中国の歌唱データセットの実験は、強いベースラインよりも一貫した改善を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conditional variational autoencoder (cVAE)-based singing voice synthesis provides efficient inference and strong audio quality by learning a score-conditioned prior and a recording-conditioned posterior latent space. However, because synthesis relies on prior samples while training uses posterior latents inferred from real recordings, imperfect distribution matching can cause a prior-posterior mismatch that degrades fine-grained expressiveness such as vibrato and micro-prosody. We propose FM-Singer, which introduces conditional flow matching (CFM) in latent space to learn a continuous vector field transporting prior latents toward posterior latents along an optimal-transport-inspired path. At inference time, the learned latent flow refines a prior sample by solving an ordinary differential equation (ODE) before waveform generation, improving expressiveness while preserving the efficiency of parallel decoding. Experiments on Korean and Chinese singing datasets demonstrate consistent improvements over strong baselines, including lower mel-cepstral distortion and fundamental-frequency error and higher perceptual scores on the Korean dataset. Code, pretrained checkpoints, and audio demos are available at https://github.com/alsgur9368/FM-Singer
- Abstract(参考訳): 条件変分オートエンコーダ(cVAE)に基づく歌声合成は、スコア条件付き前と記録条件付き後遅延空間を学習することにより、効率的な推論と強い音声品質を提供する。
しかし、実際の記録から推測される後続の潜伏剤を訓練する際、合成は先行サンプルに依存しているため、不完全な分布マッチングは、ビブラートやマイクロプロソディのような微細な表現性を低下させる後続のミスマッチを引き起こす可能性がある。
本稿では, FM-Singerを提案する。このFM-Singerは, 遅延空間における条件付きフローマッチング(CFM)を導入し, 最適輸送誘導経路に沿って, 先行潜時を後潜時へ輸送する連続ベクトル場を学習する。
推論時に、学習された潜水流は、波形生成前の常微分方程式(ODE)を解くことにより、先行サンプルを洗練し、並列復号の効率を保ちながら表現性を向上させる。
韓国と中国の歌唱データセットの実験では、メルケプストラム歪みの低さ、基本周波数誤差、韓国のデータセットの知覚スコアの高さなど、強いベースラインよりも一貫した改善が示されている。
コード、事前訓練されたチェックポイント、オーディオデモはhttps://github.com/alsgur9368/FM-Singerで入手できる。
関連論文リスト
- WaveFM: A High-Fidelity and Efficient Vocoder Based on Flow Matching [1.6385815610837167]
WaveFMはメル-スペクトログラム条件付き音声合成のためのフローマッチングモデルである。
本モデルは,従来の拡散ボコーダと比較して,品質と効率の両面で優れた性能を実現する。
論文 参考訳(メタデータ) (2025-03-20T20:17:17Z) - DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis [12.310318928818546]
DMOSpeechは, 蒸留拡散に基づくTSモデルであり, 教師モデルと比較して高速な推論と優れた性能を実現する。
我々の総合的な実験は、人間の広範囲な評価によって検証され、自然性、知性、話者の類似性を大幅に向上させながら、推測時間を桁違いに減らした。
本研究は,音声合成と人間の聴覚嗜好を協調する新たな枠組みを,直接的メートル法最適化により確立する。
論文 参考訳(メタデータ) (2024-10-14T21:17:58Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - PriorGrad: Improving Conditional Denoising Diffusion Models with
Data-Driven Adaptive Prior [103.00403682863427]
条件拡散モデルの効率を改善するために, PreGrad を提案する。
PriorGradはデータとパラメータの効率を向上し、品質を向上する。
論文 参考訳(メタデータ) (2021-06-11T14:04:03Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。