論文の概要: MakeSinger: A Semi-Supervised Training Method for Data-Efficient Singing Voice Synthesis via Classifier-free Diffusion Guidance
- arxiv url: http://arxiv.org/abs/2406.05965v1
- Date: Mon, 10 Jun 2024 01:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 15:16:08.445089
- Title: MakeSinger: A Semi-Supervised Training Method for Data-Efficient Singing Voice Synthesis via Classifier-free Diffusion Guidance
- Title(参考訳): MakeSinger: 分類器なし拡散誘導によるデータ効率の良い歌声合成のための半教師付き訓練方法
- Authors: Semin Kim, Myeonghun Jeong, Hyeonseung Lee, Minchan Kim, Byoung Jin Choi, Nam Soo Kim,
- Abstract要約: MakeSingerは、音声合成のための半教師付き訓練方法である。
我々の新しい二重誘導機構は、逆拡散ステップに関するテキストとピッチのガイダンスを与える。
トレーニング中にテキスト・トゥ・スペーチ(TTS)データを追加することで,TTS話者の歌声を歌声なしで合成できることを実証した。
- 参考スコア(独自算出の注目度): 14.22941848955693
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we propose MakeSinger, a semi-supervised training method for singing voice synthesis (SVS) via classifier-free diffusion guidance. The challenge in SVS lies in the costly process of gathering aligned sets of text, pitch, and audio data. MakeSinger enables the training of the diffusion-based SVS model from any speech and singing voice data regardless of its labeling, thereby enhancing the quality of generated voices with large amount of unlabeled data. At inference, our novel dual guiding mechanism gives text and pitch guidance on the reverse diffusion step by estimating the score of masked input. Experimental results show that the model trained in a semi-supervised manner outperforms other baselines trained only on the labeled data in terms of pronunciation, pitch accuracy and overall quality. Furthermore, we demonstrate that by adding Text-to-Speech (TTS) data in training, the model can synthesize the singing voices of TTS speakers even without their singing voices.
- Abstract(参考訳): 本稿では,歌唱音声合成のための半教師付き訓練手法であるMakeSingerを提案する。
SVSの課題は、整列したテキスト、ピッチ、オーディオデータを収集するコストのかかるプロセスにある。
MakeSingerは、ラベリングにかかわらず、任意の音声および歌唱音声データから拡散ベースのSVSモデルのトレーニングを可能にし、大量の未ラベルデータで生成された音声の品質を向上させる。
提案手法では, マスク入力のスコアを推定することにより, 逆拡散ステップのテキストとピッチ誘導を行う。
実験結果から,半教師付き手法で訓練したモデルは,発音,ピッチ精度,全体的な品質において,ラベル付きデータのみに基づいて訓練した他のベースラインよりも優れていた。
さらに、トレーニング中にテキスト・トゥ・スペーチ(TTS)データを追加することで、TTS話者の歌声を歌声なしで合成できることを実証した。
関連論文リスト
- Distilling an End-to-End Voice Assistant Without Instruction Training Data [53.524071162124464]
Distilled Voice Assistant (DiVA)は、質問応答、分類、翻訳を一般化する。
Qwen 2 Audioのような最先端のモデルと比較すると,DiVAはユーザの好みによく適合し,72%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-10-03T17:04:48Z) - Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Low-Resource Cross-Domain Singing Voice Synthesis via Reduced
Self-Supervised Speech Representations [41.410556997285326]
Karaoker-SSLは、音声合成モデルであり、テキストデータと音声データのみに基づいて訓練されている。
ボーコーダも音声データに基づいて訓練されているため、歌唱データをエンドツーエンドで使用しない。
論文 参考訳(メタデータ) (2024-02-02T16:06:24Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Improving Deliberation by Text-Only and Semi-Supervised Training [42.942428288428836]
本稿では,テキストのみによる半教師付きトレーニングを,注意に基づく検討モデルに取り入れることを提案する。
基準検討と比較して, WER の 4%-12% 削減を実現している。
また, 検討モデルにより, 肯定的な評価がもたらされることが示唆された。
論文 参考訳(メタデータ) (2022-06-29T15:30:44Z) - Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models [95.97506031821217]
本研究では,事前学習した拡散音声モデルを用いて,学習中に見つからない新人の声で音声を生成する手法を提案する。
この方法は、対象者からの短い(3秒)サンプルを必要とし、生成は、トレーニングステップなしで、推論時に操縦される。
論文 参考訳(メタデータ) (2022-06-05T19:45:29Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - Rapping-Singing Voice Synthesis based on Phoneme-level Prosody Control [47.33830090185952]
任意の話者の声に適応できるテキスト・トゥ・ラッピング・歌唱システムを導入する。
読み上げ専用音声データに基づいて訓練されたタコトロンベースのマルチスピーカ音響モデルを利用する。
その結果,提案手法は自然性を高めた高品質なラッピング/歌唱音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-17T14:31:55Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。