論文の概要: Constructing a Singing Style Caption Dataset
- arxiv url: http://arxiv.org/abs/2409.09866v1
- Date: Sun, 15 Sep 2024 21:19:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 17:10:28.392988
- Title: Constructing a Singing Style Caption Dataset
- Title(参考訳): 歌唱スタイルのキャプションデータセットの構築
- Authors: Hyunjong Ok, Jaeho Lee,
- Abstract要約: 多様な属性セットを持つ音声テキストペアデータセットであるS2Capを紹介する。
S2Capは、テキストプロンプトと、幅広い声と音楽の属性を持つオーディオサンプルのペアで構成されている。
本稿では,事前学習したオーディオエンコーダの埋め込み空間の同期化に正対類似性学習を利用するCRESCENDOという新しいメカニズムを提案する。
- 参考スコア(独自算出の注目度): 12.515874333424929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Singing voice synthesis and conversion have emerged as significant subdomains of voice generation, leading to much demands on prompt-conditioned generation. Unlike common voice data, generating a singing voice requires an understanding of various associated vocal and musical characteristics, such as the vocal tone of the singer or emotional expressions. However, existing open-source audio-text datasets for voice generation tend to capture only a very limited range of attributes, often missing musical characteristics of the audio. To fill this gap, we introduce S2Cap, an audio-text pair dataset with a diverse set of attributes. S2Cap consists of pairs of textual prompts and music audio samples with a wide range of vocal and musical attributes, including pitch, volume, tempo, mood, singer's gender and age, and musical genre and emotional expression. Utilizing S2Cap, we suggest an effective novel baseline algorithm for singing style captioning. Singing style captioning is a relative task to voice generation that generates text descriptions of vocal characteristics, which we first suggested. First, to mitigate the misalignment between the audio encoder and the text decoder, we present a novel mechanism called CRESCENDO, which utilizes positive-pair similarity learning to synchronize the embedding spaces of a pretrained audio encoder to get similar embeddings with a text encoder. We additionally supervise the model using the singer's voice, which is demixed by the accompaniment. This supervision allows the model to more accurately capture vocal characteristics, leading to improved singing style captions that better reflect the style of the singer. The dataset and the codes are available at \bulurl{https://github.com/HJ-Ok/S2cap}.
- Abstract(参考訳): 歌声合成と変換は、音声生成の重要なサブドメインとして現れており、プロンプト条件付き生成に対する多くの要求につながっている。
一般的な音声データとは異なり、歌唱音声を生成するには、歌手の声調や感情表現など、様々な声と音楽の特徴を理解する必要がある。
しかしながら、既存の音声生成のためのオープンソースのオーディオテキストデータセットは、非常に限られた範囲の属性のみをキャプチャする傾向にあり、しばしばオーディオの音楽的特徴を欠いている。
このギャップを埋めるために、さまざまな属性を持つオーディオテキストペアデータセットであるS2Capを紹介します。
S2Capは、ピッチ、ボリューム、テンポ、ムード、歌手の性別と年齢、音楽ジャンルと感情表現など、幅広い声楽と音楽の属性を持つテキストプロンプトと音楽オーディオのサンプルで構成されている。
S2Capを用いて,歌唱スタイルのキャプションに有効なベースラインアルゴリズムを提案する。
歌唱スタイルのキャプションは、最初に提案した発声特性のテキスト記述を生成する音声生成に対する相対的なタスクである。
まず,音声エンコーダとテキストデコーダのミスアライメントを軽減するため,事前学習したオーディオエンコーダの埋め込み空間を同期させ,テキストエンコーダに類似した埋め込みを実現するCRESCENDOという機構を提案する。
また、伴奏によってデミックスされた歌手の声を用いてモデルを監督する。
この監督により、モデルはより正確に声の特徴を捉え、歌手のスタイルを反映した歌唱スタイルのキャプションを改善することができる。
データセットとコードは \bulurl{https://github.com/HJ-Ok/S2cap} で公開されている。
関連論文リスト
- TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control [58.96445085236971]
スタイル転送とスタイル制御を備えたゼロショット歌唱音声合成(SVS)は、目に見えない音色とスタイルで高品質な歌唱音声を生成することを目的としている。
言語間音声および歌唱スタイル間のスタイル伝達のための,最初のゼロショットSVSモデルであるTCSingerを紹介する。
TCSingerは、品質合成、シンガー類似性、および様々なタスクにおけるスタイル制御性において、全てのベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T11:18:09Z) - Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment [56.019288564115136]
ボーカルと伴奏の両方を組み込んだテキスト・ツー・サング・シンセサイザーという新しいタスクを提案する。
我々は,歌唱音声合成 (SVS) とV2A合成 (V2A) を組み合わせた2段階音声合成法であるメロディストを開発した。
評価結果は,メロディストが同等の品質とスタイルの整合性で楽曲を合成できることを実証した。
論文 参考訳(メタデータ) (2024-04-14T18:00:05Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - A Melody-Unsupervision Model for Singing Voice Synthesis [9.137554315375919]
トレーニング時間内に時間的アライメントを伴わない音声・歌詞ペアのみを必要とするメロディ・アンスーパービジョンモデルを提案する。
提案手法は音声やテキストのラベルで訓練できるが,推測時間で歌唱音声を生成できることを示す。
論文 参考訳(メタデータ) (2021-10-13T07:42:35Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。