論文の概要: AdaVocoder: Adaptive Vocoder for Custom Voice
- arxiv url: http://arxiv.org/abs/2203.09825v1
- Date: Fri, 18 Mar 2022 10:03:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:26:44.080043
- Title: AdaVocoder: Adaptive Vocoder for Custom Voice
- Title(参考訳): AdaVocoder: カスタム音声のためのアダプティブヴォコーダ
- Authors: Xin Yuan, Yongbing Feng, Mingming Ye, Cheng Tuo, Minghang Zhang
- Abstract要約: 堅牢なヴォコーダのトレーニングは通常、さまざまな年齢グループとさまざまな音色を含むマルチスピーカーデータセットを必要とする。
本稿では、上記の課題を解決するために、別の新しい視点からカスタム音声のための適応型ボコーダを提案する。
適応型ボコーダは、主にクロスドメイン整合性損失を使用して、少数のシーンの転写学習において、GANベースのニューラルボコーダが直面する過度な問題を解決する。
- 参考スコア(独自算出の注目度): 5.240889253686369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Custom voice is to construct a personal speech synthesis system by adapting
the source speech synthesis model to the target model through the target few
recordings. The solution to constructing a custom voice is to combine an
adaptive acoustic model with a robust vocoder. However, training a robust
vocoder usually requires a multi-speaker dataset, which should include various
age groups and various timbres, so that the trained vocoder can be used for
unseen speakers. Collecting such a multi-speaker dataset is difficult, and the
dataset distribution always has a mismatch with the distribution of the target
speaker dataset. This paper proposes an adaptive vocoder for custom voice from
another novel perspective to solve the above problems. The adaptive vocoder
mainly uses a cross-domain consistency loss to solve the overfitting problem
encountered by the GAN-based neural vocoder in the transfer learning of
few-shot scenes. We construct two adaptive vocoders, AdaMelGAN and AdaHiFi-GAN.
First, We pre-train the source vocoder model on AISHELL3 and CSMSC datasets,
respectively. Then, fine-tune it on the internal dataset VXI-children with few
adaptation data. The empirical results show that a high-quality custom voice
system can be built by combining a adaptive acoustic model with a adaptive
vocoder.
- Abstract(参考訳): カスタム音声は、ターゲットの少数の記録を通して、ターゲットモデルにソース音声合成モデルを適応させることにより、個人音声合成システムを構築することである。
カスタム音声を構築するための解決策は、適応音響モデルとロバストなボコーダを組み合わせることである。
しかし、堅牢なヴォコーダのトレーニングは通常、年齢グループやさまざまな音色を含むマルチ話者データセットを必要とするため、トレーニング済みのヴォコーダを見えない話者に使用することができる。
このようなマルチスピーカーデータセットの収集は困難であり、データセットの分布は常にターゲットの話者データセットの分布とミスマッチする。
本稿では,新たな視点からカスタム音声のための適応型ボコーダを提案する。
適応ボコーダは、主にクロスドメイン一貫性損失を使用して、少数シーンの転送学習においてganベースのニューラルボコーダが直面する過剰フィッティング問題を解決する。
我々はAdaMelGANとAdaHiFi-GANという2つの適応型ボコーダを構築した。
まず、AISHELL3データセットとCSMSCデータセットに基づいて、ソースヴォコーダモデルを事前訓練する。
次に、適応データが少ない内部データセットvxi-childrenに微調整する。
その結果,適応音響モデルと適応ボコーダを組み合わせることで,高品質なカスタム音声システムを構築することができることがわかった。
関連論文リスト
- CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Generalizable Zero-Shot Speaker Adaptive Speech Synthesis with
Disentangled Representations [12.388567657230116]
一般化可能なゼロショット話者適応音声変換モデルを提案する。
GZS-TVは、話者埋め込み抽出と音色変換のための不整合表現学習を導入した。
実験により、GZS-TVは、目に見えない話者の性能劣化を低減し、複数のデータセットで全てのベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T18:13:10Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - Rapid Connectionist Speaker Adaptation [3.00476084358666]
本稿では,話者変動をモデル化するシステムであるSVCnetを提案する。
それぞれの音声に特化する神経ネットワークは、音響的変動の低次元モデルを生成する。
音声が発声されたこのモデルの依存性を最小限に抑える訓練手順について述べる。
論文 参考訳(メタデータ) (2022-11-15T00:15:11Z) - Pitch Preservation In Singing Voice Synthesis [6.99674326582747]
本稿では,独立した音素エンコーダと音素エンコーダを用いた新しい音響モデルを提案する。
実験結果から,提案手法はピッチ入力間の固有構造を特徴付けることができ,ピッチ合成精度が向上し,高度なベースラインシステムに対して優れた歌唱合成性能が得られることが示された。
論文 参考訳(メタデータ) (2021-10-11T07:01:06Z) - AdaSpeech: Adaptive Text to Speech for Custom Voice [104.69219752194863]
新しい音声の高品質かつ効率的なカスタマイズのための適応型TSシステムであるAdaSpeechを提案する。
実験結果から,AdaSpeechはベースライン法よりも適応性が高く,話者毎のパラメータは5K程度であった。
論文 参考訳(メタデータ) (2021-03-01T13:28:59Z) - Semi-supervised Learning for Singing Synthesis Timbre [22.75251024528604]
音声データのみから新しい音声を学習できる半教師付き歌唱シンセサイザーを提案する。
本システムは,2つのエンコーダ,言語と音響,および1つの(音響)デコーダを備えたエンコーダ・デコーダモデルである。
聴取テストによりシステム評価を行い、その結果が等価な教師付きアプローチで得られたものと同等であることを示す。
論文 参考訳(メタデータ) (2020-11-05T13:33:34Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。