論文の概要: DeepSinger: Singing Voice Synthesis with Data Mined From the Web
- arxiv url: http://arxiv.org/abs/2007.04590v2
- Date: Wed, 15 Jul 2020 14:37:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 05:00:06.747983
- Title: DeepSinger: Singing Voice Synthesis with Data Mined From the Web
- Title(参考訳): DeepSinger:Webからのデータマイニングによる音声合成
- Authors: Yi Ren, Xu Tan, Tao Qin, Jian Luan, Zhou Zhao, Tie-Yan Liu
- Abstract要約: DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
- 参考スコア(独自算出の注目度): 194.10598657846145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we develop DeepSinger, a multi-lingual multi-singer singing
voice synthesis (SVS) system, which is built from scratch using singing
training data mined from music websites. The pipeline of DeepSinger consists of
several steps, including data crawling, singing and accompaniment separation,
lyrics-to-singing alignment, data filtration, and singing modeling.
Specifically, we design a lyrics-to-singing alignment model to automatically
extract the duration of each phoneme in lyrics starting from coarse-grained
sentence level to fine-grained phoneme level, and further design a
multi-lingual multi-singer singing model based on a feed-forward Transformer to
directly generate linear-spectrograms from lyrics, and synthesize voices using
Griffin-Lim. DeepSinger has several advantages over previous SVS systems: 1) to
the best of our knowledge, it is the first SVS system that directly mines
training data from music websites, 2) the lyrics-to-singing alignment model
further avoids any human efforts for alignment labeling and greatly reduces
labeling cost, 3) the singing model based on a feed-forward Transformer is
simple and efficient, by removing the complicated acoustic feature modeling in
parametric synthesis and leveraging a reference encoder to capture the timbre
of a singer from noisy singing data, and 4) it can synthesize singing voices in
multiple languages and multiple singers. We evaluate DeepSinger on our mined
singing dataset that consists of about 92 hours data from 89 singers on three
languages (Chinese, Cantonese and English). The results demonstrate that with
the singing data purely mined from the Web, DeepSinger can synthesize
high-quality singing voices in terms of both pitch accuracy and voice
naturalness (footnote: Our audio samples are shown in
https://speechresearch.github.io/deepsinger/.)
- Abstract(参考訳): 本稿では,音楽Webサイトから抽出した歌唱訓練データを用いて,スクラッチから構築した多言語多言語歌唱音声合成(SVS)システムであるDeepSingerを開発する。
DeepSingerのパイプラインは、データクローリング、歌唱と伴奏分離、歌詞と歌唱のアライメント、データフィルタリング、歌唱モデリングなど、いくつかのステップで構成されている。
具体的には,歌詞中の各音素の持続時間を自動的に抽出する歌詞間アライメントモデルを設計し,さらに,フィードフォワード変換器をベースとした多言語多言語歌唱モデルを設計し,歌詞から線形スペクトルを直接生成し,Griffin-Limを用いて音声を合成する。
DeepSingerは以前のSVSシステムよりもいくつかの利点がある。
1)私たちの知る限りでは、音楽ウェブサイトから直接トレーニングデータをマイニングする最初のSVSシステムである。
2)歌詞合成アライメントモデルは,アライメントラベリングに対する人間の努力をさらに回避し,ラベリングコストを大幅に削減する。
3) フィードフォワード変換器に基づく歌唱モデルは、パラメトリック合成における複雑な音響特徴モデリングを除去し、参照エンコーダを利用して、うるさい歌唱データから歌手の音色を捉え、シンプルかつ効率的である。
4)複数の言語と複数の歌手で歌声を合成することができる。
3つの言語(中国語、カント語、英語)の89人の歌手から約92時間のデータからなる、マイニングした歌唱データセットについてdeepsingerを評価した。
その結果,Webから純粋に抽出された歌唱データにより,DeepSingerはピッチ精度と音声自然性の両方の観点から高品質な歌唱音声を合成できることがわかった(フットノート: 音声サンプルはhttps://speechresearch.github.io/deepsinger/)。
関連論文リスト
- BiSinger: Bilingual Singing Voice Synthesis [9.600465391545477]
本稿では,バイリンガル・ポップSVSシステムであるBiSingerについて述べる。
我々は中国語と英語の歌声の共有表現を設計し、CMU辞書とマッピング規則を用いて実現した。
実験により、我々の言語非依存の表現と関連するデータセットの取り込みにより、英語とコードスウィッチSVSのパフォーマンスが向上した単一モデルが可能であることが確認された。
論文 参考訳(メタデータ) (2023-09-25T12:31:05Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Towards Improving the Expressiveness of Singing Voice Synthesis with
BERT Derived Semantic Information [51.02264447897833]
本稿では、変換器(BERT)から派生したセマンティック埋め込みから双方向エンコーダ表現を用いた、エンドツーエンドの高品質な歌声合成(SVS)システムを提案する。
提案したSVSシステムは、高品質なVISingerで歌声を生成することができる。
論文 参考訳(メタデータ) (2023-08-31T16:12:01Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses [13.178747366560534]
我々はWeSingerという中国語多言語音声合成システムを開発した。
定量的および定性的な評価結果はWeSingerの有効性を精度と自然性の観点から示している。
論文 参考訳(メタデータ) (2022-03-21T06:42:44Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Adversarially Trained Multi-Singer Sequence-To-Sequence Singing
Synthesizer [11.598416444452619]
我々は、異なる歌手の既存の歌唱データを全て活用するマルチシンガー・フレームワークを設計する。
我々は、エンコーダ出力が歌手依存を減らすために、シンガー分類の逆タスクを組み込んだ。
提案するシンセサイザーはベースラインよりも高品質な歌唱音声を生成することができる。
論文 参考訳(メタデータ) (2020-06-18T07:20:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。