論文の概要: GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks
- arxiv url: http://arxiv.org/abs/2409.13832v2
- Date: Wed, 30 Oct 2024 04:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:01:49.618666
- Title: GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks
- Title(参考訳): GTSinger: グローバルなマルチテクニック歌唱コーポレーション
- Authors: Yu Zhang, Changhao Pan, Wenxiang Guo, Ruiqi Li, Zhiyuan Zhu, Jialei Wang, Wenhao Xu, Jingyu Lu, Zhiqing Hong, Chuxin Wang, LiChao Zhang, Jinzheng He, Ziyue Jiang, Yuxin Chen, Chen Yang, Jiecheng Zhou, Xinyu Cheng, Zhou Zhao,
- Abstract要約: GTSingerは、グローバルで、多技術で、無料で使える、高品質な歌唱コーパスで、リアルな音楽スコアがある。
高品質な歌声を80.59時間収集し、最大の歌唱データセットを形成する。
我々は,技術制御可能な歌唱音声合成,技術認識,スタイル伝達,音声歌唱変換の4つのベンチマーク実験を行った。
- 参考スコア(独自算出の注目度): 52.30565320125514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scarcity of high-quality and multi-task singing datasets significantly hinders the development of diverse controllable and personalized singing tasks, as existing singing datasets suffer from low quality, limited diversity of languages and singers, absence of multi-technique information and realistic music scores, and poor task suitability. To tackle these problems, we present GTSinger, a large global, multi-technique, free-to-use, high-quality singing corpus with realistic music scores, designed for all singing tasks, along with its benchmarks. Particularly, (1) we collect 80.59 hours of high-quality singing voices, forming the largest recorded singing dataset; (2) 20 professional singers across nine widely spoken languages offer diverse timbres and styles; (3) we provide controlled comparison and phoneme-level annotations of six commonly used singing techniques, helping technique modeling and control; (4) GTSinger offers realistic music scores, assisting real-world musical composition; (5) singing voices are accompanied by manual phoneme-to-audio alignments, global style labels, and 16.16 hours of paired speech for various singing tasks. Moreover, to facilitate the use of GTSinger, we conduct four benchmark experiments: technique-controllable singing voice synthesis, technique recognition, style transfer, and speech-to-singing conversion. The corpus and demos can be found at http://gtsinger.github.io. We provide the dataset and the code for processing data and conducting benchmarks at https://huggingface.co/datasets/GTSinger/GTSinger and https://github.com/GTSinger/GTSinger.
- Abstract(参考訳): 高品質でマルチタスクな歌唱データセットの不足は、既存の歌唱データセットが低品質、言語や歌手の多様性の制限、マルチテクニク情報やリアルな楽譜の欠如、タスク適合性の低下など、さまざまなコントロール可能でパーソナライズされた歌唱タスクの開発を著しく妨げている。
これらの問題に対処するため、GTSingerは、グローバルでマルチテクニク、フリーユース、高品質な歌唱コーパスで、すべての歌唱タスクとベンチマーク用に設計されている。
特に,(1)80.59時間の高品質な歌唱音声を収集し,最大記録の歌唱データセットを作成し,(2)9言語にまたがる20人のプロの歌手が多様な音色とスタイルを提供し,(3)6つの一般的な歌唱技法の比較と音素レベルのアノテーションを提供し,技術モデリングと制御を支援し,(4)GTSingerはリアルな音楽スコアを提供し,現実的な作曲を支援し,(5)手動による音素間のアライメント,グローバルなスタイルラベル,16.16時間のペア音声を提供する。
さらに,GTSingerの使用を容易にするために,技術制御可能な歌唱音声合成,技術認識,スタイル伝達,音声歌唱変換の4つのベンチマーク実験を行った。
コーパスとデモはhttp://gtsinger.github.io.comで見ることができる。
我々は、データ処理とベンチマークを行うためのデータセットとコードを、https://huggingface.co/datasets/GTSinger/GTSingerとhttps://github.com/GTSinger/GTSingerで提供します。
関連論文リスト
- TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control [58.96445085236971]
スタイル転送とスタイル制御を備えたゼロショット歌唱音声合成(SVS)は、目に見えない音色とスタイルで高品質な歌唱音声を生成することを目的としている。
言語間音声および歌唱スタイル間のスタイル伝達のための,最初のゼロショットSVSモデルであるTCSingerを紹介する。
TCSingerは、品質合成、シンガー類似性、および様々なタスクにおけるスタイル制御性において、全てのベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T11:18:09Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - SingingHead: A Large-scale 4D Dataset for Singing Head Animation [75.63669264992134]
我々は,27時間以上の同期歌唱ビデオ,3D顔の動き,歌声音声,バックグラウンド音楽からなる大規模歌唱ヘッドデータセットであるSingingHeadを収集した。
SingingHeadデータセットとともに、既存の音声駆動型3D顔アニメーション法と2Dトーキングヘッド法を歌唱タスク上でベンチマークする。
We propose a unified singing head animation framework called UniSinger to achieve both singing audio-driven 3D singing head animation and 2D singing portrait video synthesis。
論文 参考訳(メタデータ) (2023-12-07T15:40:36Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - Deep Learning Approach for Singer Voice Classification of Vietnamese
Popular Music [1.2043574473965315]
ベトナムのポピュラー音楽の分析に基づいて,歌手の名前を識別する新しい手法を提案する。
音声セグメント検出と歌声分離を前処理ステップとして利用しています。
本手法の正確性を検証するために,ベトナムの有名な歌手18人の歌曲300曲のデータセットを評価した。
論文 参考訳(メタデータ) (2021-02-24T08:03:07Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z) - Adversarially Trained Multi-Singer Sequence-To-Sequence Singing
Synthesizer [11.598416444452619]
我々は、異なる歌手の既存の歌唱データを全て活用するマルチシンガー・フレームワークを設計する。
我々は、エンコーダ出力が歌手依存を減らすために、シンガー分類の逆タスクを組み込んだ。
提案するシンセサイザーはベースラインよりも高品質な歌唱音声を生成することができる。
論文 参考訳(メタデータ) (2020-06-18T07:20:11Z) - Addressing the confounds of accompaniments in singer identification [29.949390919663596]
我々は、ソース分離における最先端のパフォーマンスを備えたオープンソースツールであるopen-Unmixを用いて、ボーカルと楽器のトラックを分離する。
次に,歌手識別モデルを学習する2つの方法について検討する。
論文 参考訳(メタデータ) (2020-02-17T07:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。