論文の概要: An Empirical Study on End-to-End Singing Voice Synthesis with
Encoder-Decoder Architectures
- arxiv url: http://arxiv.org/abs/2108.03008v1
- Date: Fri, 6 Aug 2021 08:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-09 14:27:46.853106
- Title: An Empirical Study on End-to-End Singing Voice Synthesis with
Encoder-Decoder Architectures
- Title(参考訳): エンコーダ・デコーダを用いたエンドツーエンド歌声合成に関する経験的研究
- Authors: Dengfeng Ke and Yuxing Lu and Xudong Liu and Yanyan Xu and Jing Sun
and Cheng-Hao Cai
- Abstract要約: 歌唱音声合成を実現するために,エンコーダ・デコーダニューラルモデルと多数のボコーダを用いる。
本研究は,音声データと音声情報,歌詞,ビート情報を用いて,モデルが訓練可能であることを示す実験である。
- 参考スコア(独自算出の注目度): 11.440111473570196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of neural network architectures and speech
processing models, singing voice synthesis with neural networks is becoming the
cutting-edge technique of digital music production. In this work, in order to
explore how to improve the quality and efficiency of singing voice synthesis,
in this work, we use encoder-decoder neural models and a number of vocoders to
achieve singing voice synthesis. We conduct experiments to demonstrate that the
models can be trained using voice data with pitch information, lyrics and beat
information, and the trained models can produce smooth, clear and natural
singing voice that is close to real human voice. As the models work in the
end-to-end manner, they allow users who are not domain experts to directly
produce singing voice by arranging pitches, lyrics and beats.
- Abstract(参考訳): ニューラルネットワークアーキテクチャと音声処理モデルの急速な発展に伴い、ニューラルネットワークを用いた歌声合成がデジタル音楽制作の最先端技術になりつつある。
本研究では,歌唱音声合成の品質と効率を改善するために,エンコーダ・デコーダ・ニューラルモデルと多数のボコーダを用いて歌唱音声合成を実現する。
実声に近いスムーズで明快で自然な歌唱音声を生成することができることを実証するため,本実験では,ピッチ情報,歌詞,ビート情報を含む音声データを用いてモデルを訓練する実験を行った。
モデルがエンドツーエンドで機能するので、ドメインの専門家でないユーザーはピッチ、歌詞、ビートを並べることで、直接歌声を生成できる。
関連論文リスト
- Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Human Voice Pitch Estimation: A Convolutional Network with Auto-Labeled
and Synthetic Data [0.0]
本稿では,ピッチ抽出のための特殊な畳み込みニューラルネットワークを提案する。
提案手法は,合成データと自動ラベル付アカペラ歌唱音声を組み合わせることで,ロバストなトレーニング環境を構築する。
この研究は、音楽と音声の両方において、ピッチ抽出の強化の道を開くものである。
論文 参考訳(メタデータ) (2023-08-14T14:26:52Z) - HiddenSinger: High-Quality Singing Voice Synthesis via Neural Audio
Codec and Latent Diffusion Models [25.966328901566815]
ニューラルオーディオと潜時拡散モデルを用いた高品質な歌声合成システムHiddenSingerを提案する。
さらに,提案手法を教師なし音声学習フレームワークであるHiddenSinger-Uに拡張し,モデルを訓練する。
実験結果から,従来のモデルよりも音質が優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-12T01:21:41Z) - A Melody-Unsupervision Model for Singing Voice Synthesis [9.137554315375919]
トレーニング時間内に時間的アライメントを伴わない音声・歌詞ペアのみを必要とするメロディ・アンスーパービジョンモデルを提案する。
提案手法は音声やテキストのラベルで訓練できるが,推測時間で歌唱音声を生成できることを示す。
論文 参考訳(メタデータ) (2021-10-13T07:42:35Z) - Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System [25.573552964889963]
本稿では,ディープニューラルネットワーク(DNN)に基づく歌唱音声合成(SVS)システムであるSinsyについて述べる。
提案システムは,時間ラグモデル,持続時間モデル,音響モデル,ボコーダの4つのモジュールから構成される。
実験結果から,より適切なタイミング,より自然なビブラート,正しいピッチで歌唱音声を合成できることが確認された。
論文 参考訳(メタデータ) (2021-08-05T17:59:58Z) - VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。
我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文 参考訳(メタデータ) (2020-08-10T09:44:10Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z) - Score and Lyrics-Free Singing Voice Generation [48.55126268721948]
トレーニング時間と推論時間の両方において、事前に決められたスコアと歌詞のない歌声生成という、新しい挑戦的な代替手段を探求する。
生成的敵ネットワークを用いてそのようなモデルを実装し,客観的かつ主観的に評価する。
論文 参考訳(メタデータ) (2019-12-26T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。