論文の概要: Hierarchical Diffusion Models for Singing Voice Neural Vocoder
- arxiv url: http://arxiv.org/abs/2210.07508v1
- Date: Fri, 14 Oct 2022 04:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 18:22:12.153190
- Title: Hierarchical Diffusion Models for Singing Voice Neural Vocoder
- Title(参考訳): 歌声ニューラルボーコーダの階層的拡散モデル
- Authors: Naoya Takahashi, Mayank Kumar, Singh, Yuki Mitsufuji
- Abstract要約: 歌声ニューラルボコーダの階層的拡散モデルを提案する。
実験結果から,複数の歌手を対象とした高品質な歌唱音声が得られた。
- 参考スコア(独自算出の注目度): 21.118585353100634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in deep generative models has improved the quality of neural
vocoders in speech domain. However, it remains challenging to generate
high-quality singing voice due to a wider variety of musical expressions in
pitch, loudness, and pronunciations. In this work, we propose a hierarchical
diffusion model for singing voice neural vocoders. The proposed method consists
of multiple diffusion models operating in different sampling rates; the model
at the lowest sampling rate focuses on generating accurate low frequency
components such as pitch, and other models progressively generate the waveform
at the higher sampling rates based on the data at the lower sampling rate and
acoustic features. Experimental results show that the proposed method produces
high-quality singing voice for multiple singers, outperforming state-of-the-art
neural vocoders with a similar range of computational costs.
- Abstract(参考訳): 最近の深層生成モデルの進歩により、音声領域におけるニューラルボコーダの品質が向上した。
しかし、ピッチ、ラウドネス、発音の表現が多種多様であるため、高品質な歌声の生成は依然として困難である。
本研究では,音声ニューラルボコーダの歌唱における階層的拡散モデルを提案する。
提案手法は, 異なるサンプリングレートで動作する複数の拡散モデルで構成され, 最低サンプリングレートのモデルはピッチなどの正確な低周波成分の生成に重点を置いており, その他のモデルは, サンプリングレートの低いデータと音響特性に基づいて, より高いサンプリングレートで波形を段階的に生成する。
実験結果から,提案手法は複数の歌手に対して高品質な歌唱音声を生成し,同様の計算コストで最先端のニューラルボコーダより優れていた。
関連論文リスト
- SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - HiddenSinger: High-Quality Singing Voice Synthesis via Neural Audio
Codec and Latent Diffusion Models [25.966328901566815]
ニューラルオーディオと潜時拡散モデルを用いた高品質な歌声合成システムHiddenSingerを提案する。
さらに,提案手法を教師なし音声学習フレームワークであるHiddenSinger-Uに拡張し,モデルを訓練する。
実験結果から,従来のモデルよりも音質が優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-12T01:21:41Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Enhancing audio quality for expressive Neural Text-to-Speech [8.199224915764672]
本稿では,高表現率音声の信号品質を向上させるために,追加データを用いることなく活用できる一連の手法を提案する。
その結果,これらの手法を組み合わせることで,表現力のある有名人声のMUSHRAスコアにおいて,ベースラインシステムと録音との知覚自然さのギャップを39%削減できることが判明した。
論文 参考訳(メタデータ) (2021-08-13T14:32:39Z) - HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis [153.48507947322886]
HiFiSingerは、高忠実な歌声に対するSVSシステムである。
FastSpeechベースの音響モデルとParallel WaveGANベースのボコーダで構成されている。
実験の結果,HiFiSingerは高品質な歌声を合成することがわかった。
論文 参考訳(メタデータ) (2020-09-03T16:31:02Z) - Audio Dequantization for High Fidelity Audio Generation in Flow-based
Neural Vocoder [29.63675159839434]
フローベースのニューラルボコーダは、リアルタイム音声生成タスクにおいて大幅に改善されている。
フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。
論文 参考訳(メタデータ) (2020-08-16T09:37:18Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。