論文の概要: DeepSinger: Singing Voice Synthesis with Data Mined From the Web
- arxiv url: http://arxiv.org/abs/2007.04590v2
- Date: Wed, 15 Jul 2020 14:37:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 05:00:06.747983
- Title: DeepSinger: Singing Voice Synthesis with Data Mined From the Web
- Title(参考訳): DeepSinger:Webからのデータマイニングによる音声合成
- Authors: Yi Ren, Xu Tan, Tao Qin, Jian Luan, Zhou Zhao, Tie-Yan Liu
- Abstract要約: DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
- 参考スコア(独自算出の注目度): 194.10598657846145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we develop DeepSinger, a multi-lingual multi-singer singing
voice synthesis (SVS) system, which is built from scratch using singing
training data mined from music websites. The pipeline of DeepSinger consists of
several steps, including data crawling, singing and accompaniment separation,
lyrics-to-singing alignment, data filtration, and singing modeling.
Specifically, we design a lyrics-to-singing alignment model to automatically
extract the duration of each phoneme in lyrics starting from coarse-grained
sentence level to fine-grained phoneme level, and further design a
multi-lingual multi-singer singing model based on a feed-forward Transformer to
directly generate linear-spectrograms from lyrics, and synthesize voices using
Griffin-Lim. DeepSinger has several advantages over previous SVS systems: 1) to
the best of our knowledge, it is the first SVS system that directly mines
training data from music websites, 2) the lyrics-to-singing alignment model
further avoids any human efforts for alignment labeling and greatly reduces
labeling cost, 3) the singing model based on a feed-forward Transformer is
simple and efficient, by removing the complicated acoustic feature modeling in
parametric synthesis and leveraging a reference encoder to capture the timbre
of a singer from noisy singing data, and 4) it can synthesize singing voices in
multiple languages and multiple singers. We evaluate DeepSinger on our mined
singing dataset that consists of about 92 hours data from 89 singers on three
languages (Chinese, Cantonese and English). The results demonstrate that with
the singing data purely mined from the Web, DeepSinger can synthesize
high-quality singing voices in terms of both pitch accuracy and voice
naturalness (footnote: Our audio samples are shown in
https://speechresearch.github.io/deepsinger/.)
- Abstract(参考訳): 本稿では,音楽Webサイトから抽出した歌唱訓練データを用いて,スクラッチから構築した多言語多言語歌唱音声合成(SVS)システムであるDeepSingerを開発する。
DeepSingerのパイプラインは、データクローリング、歌唱と伴奏分離、歌詞と歌唱のアライメント、データフィルタリング、歌唱モデリングなど、いくつかのステップで構成されている。
具体的には,歌詞中の各音素の持続時間を自動的に抽出する歌詞間アライメントモデルを設計し,さらに,フィードフォワード変換器をベースとした多言語多言語歌唱モデルを設計し,歌詞から線形スペクトルを直接生成し,Griffin-Limを用いて音声を合成する。
DeepSingerは以前のSVSシステムよりもいくつかの利点がある。
1)私たちの知る限りでは、音楽ウェブサイトから直接トレーニングデータをマイニングする最初のSVSシステムである。
2)歌詞合成アライメントモデルは,アライメントラベリングに対する人間の努力をさらに回避し,ラベリングコストを大幅に削減する。
3) フィードフォワード変換器に基づく歌唱モデルは、パラメトリック合成における複雑な音響特徴モデリングを除去し、参照エンコーダを利用して、うるさい歌唱データから歌手の音色を捉え、シンプルかつ効率的である。
4)複数の言語と複数の歌手で歌声を合成することができる。
3つの言語(中国語、カント語、英語)の89人の歌手から約92時間のデータからなる、マイニングした歌唱データセットについてdeepsingerを評価した。
その結果,Webから純粋に抽出された歌唱データにより,DeepSingerはピッチ精度と音声自然性の両方の観点から高品質な歌唱音声を合成できることがわかった(フットノート: 音声サンプルはhttps://speechresearch.github.io/deepsinger/)。
関連論文リスト
- GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks [52.30565320125514]
GTSingerは、グローバルで、多技術で、無料で使える、高品質な歌唱コーパスで、リアルな音楽スコアがある。
高品質な歌声を80.59時間収集し、最大の歌唱データセットを形成する。
我々は,技術制御可能な歌唱音声合成,技術認識,スタイル伝達,音声歌唱変換の4つのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-09-20T18:18:14Z) - MakeSinger: A Semi-Supervised Training Method for Data-Efficient Singing Voice Synthesis via Classifier-free Diffusion Guidance [14.22941848955693]
MakeSingerは、音声合成のための半教師付き訓練方法である。
我々の新しい二重誘導機構は、逆拡散ステップに関するテキストとピッチのガイダンスを与える。
トレーニング中にテキスト・トゥ・スペーチ(TTS)データを追加することで,TTS話者の歌声を歌声なしで合成できることを実証した。
論文 参考訳(メタデータ) (2024-06-10T01:47:52Z) - Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment [56.019288564115136]
ボーカルと伴奏の両方を組み込んだテキスト・ツー・サング・シンセサイザーという新しいタスクを提案する。
我々は,歌唱音声合成 (SVS) とV2A合成 (V2A) を組み合わせた2段階音声合成法であるメロディストを開発した。
評価結果は,メロディストが同等の品質とスタイルの整合性で楽曲を合成できることを実証した。
論文 参考訳(メタデータ) (2024-04-14T18:00:05Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - BiSinger: Bilingual Singing Voice Synthesis [9.600465391545477]
本稿では,バイリンガル・ポップSVSシステムであるBiSingerについて述べる。
我々は中国語と英語の歌声の共有表現を設計し、CMU辞書とマッピング規則を用いて実現した。
実験により、我々の言語非依存の表現と関連するデータセットの取り込みにより、英語とコードスウィッチSVSのパフォーマンスが向上した単一モデルが可能であることが確認された。
論文 参考訳(メタデータ) (2023-09-25T12:31:05Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses [13.178747366560534]
我々はWeSingerという中国語多言語音声合成システムを開発した。
定量的および定性的な評価結果はWeSingerの有効性を精度と自然性の観点から示している。
論文 参考訳(メタデータ) (2022-03-21T06:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。