論文の概要: Low-Resource Cross-Domain Singing Voice Synthesis via Reduced
Self-Supervised Speech Representations
- arxiv url: http://arxiv.org/abs/2402.01520v1
- Date: Fri, 2 Feb 2024 16:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 14:26:56.742243
- Title: Low-Resource Cross-Domain Singing Voice Synthesis via Reduced
Self-Supervised Speech Representations
- Title(参考訳): 自己教師あり音声表現の低減による低リソースクロスドメイン歌唱音声合成
- Authors: Panos Kakoulidis, Nikolaos Ellinas, Georgios Vamvoukakis, Myrsini
Christidou, Alexandra Vioni, Georgia Maniati, Junkwang Oh, Gunu Jho, Inchul
Hwang, Pirros Tsiakoulis, Aimilios Chalamandaris
- Abstract要約: Karaoker-SSLは、音声合成モデルであり、テキストデータと音声データのみに基づいて訓練されている。
ボーコーダも音声データに基づいて訓練されているため、歌唱データをエンドツーエンドで使用しない。
- 参考スコア(独自算出の注目度): 41.410556997285326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a singing voice synthesis model, Karaoker-SSL, that
is trained only on text and speech data as a typical multi-speaker acoustic
model. It is a low-resource pipeline that does not utilize any singing data
end-to-end, since its vocoder is also trained on speech data. Karaoker-SSL is
conditioned by self-supervised speech representations in an unsupervised
manner. We preprocess these representations by selecting only a subset of their
task-correlated dimensions. The conditioning module is indirectly guided to
capture style information during training by multi-tasking. This is achieved
with a Conformer-based module, which predicts the pitch from the acoustic
model's output. Thus, Karaoker-SSL allows singing voice synthesis without
reliance on hand-crafted and domain-specific features. There are also no
requirements for text alignments or lyrics timestamps. To refine the voice
quality, we employ a U-Net discriminator that is conditioned on the target
speaker and follows a Diffusion GAN training scheme.
- Abstract(参考訳): 本稿では,歌声合成モデルであるカラオカー・SSLを提案する。
ボーコーダも音声データに基づいてトレーニングされているため、歌唱データをエンドツーエンドで使用しない低リソースのパイプラインである。
Karaoker-SSLは、教師なしの方法で自己教師付き音声表現によって条件付けされる。
我々はこれらの表現を、タスク関連次元のサブセットのみを選択して前処理する。
コンディショニングモジュールは、マルチタスクによるトレーニング中にスタイル情報をキャプチャするために間接的にガイドされる。
これは、音響モデルの出力からピッチを予測するConformerベースのモジュールによって達成される。
そのため、Karaoker-SSLは手作りやドメイン固有の機能に依存しない歌声合成を可能にする。
テキストアライメントや歌詞タイムスタンプも必要ありません。
音声品質を向上するために、ターゲット話者に条件付きで拡散GAN訓練スキームに従うU-Net判別器を用いる。
関連論文リスト
- MakeSinger: A Semi-Supervised Training Method for Data-Efficient Singing Voice Synthesis via Classifier-free Diffusion Guidance [14.22941848955693]
MakeSingerは、音声合成のための半教師付き訓練方法である。
我々の新しい二重誘導機構は、逆拡散ステップに関するテキストとピッチのガイダンスを与える。
トレーニング中にテキスト・トゥ・スペーチ(TTS)データを追加することで,TTS話者の歌声を歌声なしで合成できることを実証した。
論文 参考訳(メタデータ) (2024-06-10T01:47:52Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Karaoker: Alignment-free singing voice synthesis with speech training
data [3.9795908407245055]
カラオカー (Karaoker) は、タコトロンをベースとした多話者モデルである。
このモデルは、連続データ上に1つの深い畳み込みエンコーダで共同条件付けされている。
特徴再構成,分類,話者識別タスクによるテキスト音声訓練の目的を拡大する。
論文 参考訳(メタデータ) (2022-04-08T15:33:59Z) - Rapping-Singing Voice Synthesis based on Phoneme-level Prosody Control [47.33830090185952]
任意の話者の声に適応できるテキスト・トゥ・ラッピング・歌唱システムを導入する。
読み上げ専用音声データに基づいて訓練されたタコトロンベースのマルチスピーカ音響モデルを利用する。
その結果,提案手法は自然性を高めた高品質なラッピング/歌唱音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-17T14:31:55Z) - A Melody-Unsupervision Model for Singing Voice Synthesis [9.137554315375919]
トレーニング時間内に時間的アライメントを伴わない音声・歌詞ペアのみを必要とするメロディ・アンスーパービジョンモデルを提案する。
提案手法は音声やテキストのラベルで訓練できるが,推測時間で歌唱音声を生成できることを示す。
論文 参考訳(メタデータ) (2021-10-13T07:42:35Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。