論文の概要: HiddenSinger: High-Quality Singing Voice Synthesis via Neural Audio
Codec and Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2306.06814v1
- Date: Mon, 12 Jun 2023 01:21:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 16:26:38.257536
- Title: HiddenSinger: High-Quality Singing Voice Synthesis via Neural Audio
Codec and Latent Diffusion Models
- Title(参考訳): HiddenSinger:ニューラルオーディオコーデックと潜時拡散モデルによる高品質歌声合成
- Authors: Ji-Sang Hwang, Sang-Hoon Lee, and Seong-Whan Lee
- Abstract要約: ニューラルオーディオと潜時拡散モデルを用いた高品質な歌声合成システムHiddenSingerを提案する。
さらに,提案手法を教師なし音声学習フレームワークであるHiddenSinger-Uに拡張し,モデルを訓練する。
実験結果から,従来のモデルよりも音質が優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 25.966328901566815
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, denoising diffusion models have demonstrated remarkable performance
among generative models in various domains. However, in the speech domain, the
application of diffusion models for synthesizing time-varying audio faces
limitations in terms of complexity and controllability, as speech synthesis
requires very high-dimensional samples with long-term acoustic features. To
alleviate the challenges posed by model complexity in singing voice synthesis,
we propose HiddenSinger, a high-quality singing voice synthesis system using a
neural audio codec and latent diffusion models. To ensure high-fidelity audio,
we introduce an audio autoencoder that can encode audio into an audio codec as
a compressed representation and reconstruct the high-fidelity audio from the
low-dimensional compressed latent vector. Subsequently, we use the latent
diffusion models to sample a latent representation from a musical score. In
addition, our proposed model is extended to an unsupervised singing voice
learning framework, HiddenSinger-U, to train the model using an unlabeled
singing voice dataset. Experimental results demonstrate that our model
outperforms previous models in terms of audio quality. Furthermore, the
HiddenSinger-U can synthesize high-quality singing voices of speakers trained
solely on unlabeled data.
- Abstract(参考訳): 近年,異化拡散モデルは様々な領域の生成モデルにおいて有意な性能を示している。
しかし、音声領域では、音声合成が長期音響特性を持つ非常に高次元のサンプルを必要とするため、時間変化オーディオを合成するための拡散モデルの適用は、複雑さと制御性の観点から制限に直面している。
歌唱音声合成におけるモデル複雑さによる課題を軽減するため,ニューラルオーディオコーデックと潜時拡散モデルを用いた高品質な歌唱音声合成システムであるHiddenSingerを提案する。
高忠実度オーディオを保証するため,音声コーデックを圧縮表現として符号化し,低次元圧縮潜在ベクトルから高忠実度オーディオを再構成するオーディオオートエンコーダを導入する。
その後、潜時拡散モデルを用いて楽譜から潜時表現をサンプリングする。
さらに,提案モデルは教師なしの歌唱学習フレームワークであるhiddensinger-uに拡張され,ラベルなし歌唱音声データセットを用いてモデルを訓練する。
実験の結果,従来のモデルよりも音質が優れていた。
さらに、HiddenSinger-Uは、ラベルなしデータのみに基づいて訓練された話者の高品質な歌声を合成することができる。
関連論文リスト
- Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Hierarchical Diffusion Models for Singing Voice Neural Vocoder [21.118585353100634]
歌声ニューラルボコーダの階層的拡散モデルを提案する。
実験により,複数の歌手に対して高品質な歌唱音声を生成する方法が得られた。
論文 参考訳(メタデータ) (2022-10-14T04:30:09Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - Enhancing audio quality for expressive Neural Text-to-Speech [8.199224915764672]
本稿では,高表現率音声の信号品質を向上させるために,追加データを用いることなく活用できる一連の手法を提案する。
その結果,これらの手法を組み合わせることで,表現力のある有名人声のMUSHRAスコアにおいて,ベースラインシステムと録音との知覚自然さのギャップを39%削減できることが判明した。
論文 参考訳(メタデータ) (2021-08-13T14:32:39Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Audio Dequantization for High Fidelity Audio Generation in Flow-based
Neural Vocoder [29.63675159839434]
フローベースのニューラルボコーダは、リアルタイム音声生成タスクにおいて大幅に改善されている。
フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。
論文 参考訳(メタデータ) (2020-08-16T09:37:18Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。