論文の概要: Semi-supervised Learning for Singing Synthesis Timbre
- arxiv url: http://arxiv.org/abs/2011.02809v1
- Date: Thu, 5 Nov 2020 13:33:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 13:00:26.473943
- Title: Semi-supervised Learning for Singing Synthesis Timbre
- Title(参考訳): 歌声合成音の半教師付き学習
- Authors: Jordi Bonada, Merlijn Blaauw
- Abstract要約: 音声データのみから新しい音声を学習できる半教師付き歌唱シンセサイザーを提案する。
本システムは,2つのエンコーダ,言語と音響,および1つの(音響)デコーダを備えたエンコーダ・デコーダモデルである。
聴取テストによりシステム評価を行い、その結果が等価な教師付きアプローチで得られたものと同等であることを示す。
- 参考スコア(独自算出の注目度): 22.75251024528604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a semi-supervised singing synthesizer, which is able to learn new
voices from audio data only, without any annotations such as phonetic
segmentation. Our system is an encoder-decoder model with two encoders,
linguistic and acoustic, and one (acoustic) decoder. In a first step, the
system is trained in a supervised manner, using a labelled multi-singer
dataset. Here, we ensure that the embeddings produced by both encoders are
similar, so that we can later use the model with either acoustic or linguistic
input features. To learn a new voice in an unsupervised manner, the pretrained
acoustic encoder is used to train a decoder for the target singer. Finally, at
inference, the pretrained linguistic encoder is used together with the decoder
of the new voice, to produce acoustic features from linguistic input. We
evaluate our system with a listening test and show that the results are
comparable to those obtained with an equivalent supervised approach.
- Abstract(参考訳): 本研究では,音声データのみから新たな音声を学習できる半教師歌唱シンセサイザーを提案する。
本システムは,2つのエンコーダ,言語と音響,および1つの(音響)デコーダを備えたエンコーダデコーダモデルである。
最初のステップでは、システムはラベル付きマルチシンガーデータセットを使用して教師ありの方法でトレーニングされる。
ここでは、両方のエンコーダが生成する埋め込みが似ていることを保証し、後に音響的または言語的な入力機能を持つモデルが使用できるようにする。
新しい声を教師なしで学習するために、予め訓練された音響エンコーダを使用して、ターゲットシンガーのデコーダを訓練する。
最後に,事前学習した言語エンコーダと新しい音声のデコーダを併用して,言語入力から音響的特徴を生成する。
聴取テストによりシステム評価を行い、その結果が等価な教師付きアプローチで得られたものと同等であることを示す。
関連論文リスト
- Exploring bat song syllable representations in self-supervised audio encoders [0.0]
いくつかの自己教師型オーディオエンコーダにおけるコウモリの音節の符号化について分析する。
人間の発話に事前学習されたモデルは、異なる音節型の最も独特な表現を生成する。
論文 参考訳(メタデータ) (2024-09-19T10:09:31Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Pitch Preservation In Singing Voice Synthesis [6.99674326582747]
本稿では,独立した音素エンコーダと音素エンコーダを用いた新しい音響モデルを提案する。
実験結果から,提案手法はピッチ入力間の固有構造を特徴付けることができ,ピッチ合成精度が向上し,高度なベースラインシステムに対して優れた歌唱合成性能が得られることが示された。
論文 参考訳(メタデータ) (2021-10-11T07:01:06Z) - Towards High-fidelity Singing Voice Conversion with Acoustic Reference
and Contrastive Predictive Coding [6.278338686038089]
非並列歌唱音声変換システムでは,音声後部グラフに基づく手法が広く普及している。
PPGの音響情報が不足しているため、変換された歌声のスタイルと自然性はまだ限られている。
提案モデルでは,歌声変換の自然性や,対象歌唱者との類似性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-10-10T10:27:20Z) - An Empirical Study on End-to-End Singing Voice Synthesis with
Encoder-Decoder Architectures [11.440111473570196]
歌唱音声合成を実現するために,エンコーダ・デコーダニューラルモデルと多数のボコーダを用いる。
本研究は,音声データと音声情報,歌詞,ビート情報を用いて,モデルが訓練可能であることを示す実験である。
論文 参考訳(メタデータ) (2021-08-06T08:51:16Z) - Collaborative Training of Acoustic Encoders for Speech Recognition [15.200846745937763]
音声認識のための異なる大きさの音響エンコーダを協調的に訓練する手法を提案する。
We performed experiment using the LibriSpeech corpus and demonstrate that the collaboratively trained acoustic encoders can provide a 11% relative improvement in the word error rate。
論文 参考訳(メタデータ) (2021-06-16T17:05:47Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。