論文の概要: Scaling NVIDIA's multi-speaker multi-lingual TTS systems with voice
cloning to Indic Languages
- arxiv url: http://arxiv.org/abs/2401.13851v1
- Date: Wed, 24 Jan 2024 23:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 16:12:33.267522
- Title: Scaling NVIDIA's multi-speaker multi-lingual TTS systems with voice
cloning to Indic Languages
- Title(参考訳): NVIDIAのマルチスピーカー多言語TSシステムのスケーリングと音声クローンによるIndic言語への拡張
- Authors: Akshit Arora, Rohan Badlani, Sungwon Kim, Rafael Valle, Bryan
Catanzaro
- Abstract要約: NVIDIAがMMITS-VC 2024 Challengeのために開発したTSモデルについて述べる。
RAD-MMMはトラック1と2で、P-Flowはトラック3で、平均評価スコア(MOS)は4.4、話者類似度スコア(SMOS)は3.62である。
- 参考スコア(独自算出の注目度): 26.25559967715852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we describe the TTS models developed by NVIDIA for the
MMITS-VC (Multi-speaker, Multi-lingual Indic TTS with Voice Cloning) 2024
Challenge. In Tracks 1 and 2, we utilize RAD-MMM to perform few-shot TTS by
training additionally on 5 minutes of target speaker data. In Track 3, we
utilize P-Flow to perform zero-shot TTS by training on the challenge dataset as
well as external datasets. We use HiFi-GAN vocoders for all submissions.
RAD-MMM performs competitively on Tracks 1 and 2, while P-Flow ranks first on
Track 3, with mean opinion score (MOS) 4.4 and speaker similarity score (SMOS)
of 3.62.
- Abstract(参考訳): 本稿では,NVIDIA が MMITS-VC (Multi-speaker, Multi-lingual Indic TTS with Voice Cloning) 2024 Challenge 向けに開発した TTS モデルについて述べる。
トラック1と2では、RAD-MMMを用いて、ターゲット話者データから5分間のトレーニングを行う。
トラック3では,pフローを用いてチャレンジデータセットと外部データセットのトレーニングを行い,ゼロショットttsを行う。
すべての送信にHiFi-GANボコーダを使用します。
RAD-MMMはトラック1と2で、P-Flowはトラック3で、平均評価スコア(MOS)は4.4、話者類似度スコア(SMOS)は3.62である。
関連論文リスト
- Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - Rapid Speaker Adaptation in Low Resource Text to Speech Systems using
Synthetic Data and Transfer learning [6.544954579068865]
本稿では,高ソース言語データと合成データを用いたトランスファー学習手法を提案する。
我々は、低リソースのインドのヒンディー語で高品質な単一話者TSシステムの訓練に3段階のアプローチを採用する。
論文 参考訳(メタデータ) (2023-12-02T10:52:00Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Unsupervised Data Selection for TTS: Using Arabic Broadcast News as a
Case Study [44.07589545984369]
本稿では、自動データ選択と事前学習/微調整戦略を含む、TS構築のための完全に教師なしの手法を提案する。
我々は,データの選択を慎重に行うことで,TSシステムの効率が向上することを示す。
評価の結果,CERは3.9%,CERは1.3%であった。
論文 参考訳(メタデータ) (2023-01-22T10:41:58Z) - A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural
TTS [52.51848317549301]
高速なTTS合成のためのマルチステージマルチコードブック(MSMC)手法を提案する。
ベクトル量子化可変オートエンコーダ(VQ-VAE)に基づく特徴解析器を用いて,音声訓練データのメルスペクトルを符号化する。
合成において、ニューラルネットワークは予測されたSMCRを最終的な音声波形に変換する。
論文 参考訳(メタデータ) (2022-09-22T09:43:17Z) - YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice
Conversion for everyone [0.7927630381442314]
YourTTSは、ゼロショットマルチスピーカーTSのタスクに多言語アプローチのパワーをもたらす。
我々は、VCTKデータセット上のゼロショット音声変換において、ゼロショットマルチスピーカTSとSOTAに匹敵する結果を得る。
1分未満の音声でYourTTSモデルを微調整し、最先端の結果を音声に類似し、妥当な品質で達成することが可能である。
論文 参考訳(メタデータ) (2021-12-04T19:50:29Z) - ESPnet2-TTS: Extending the Edge of TTS Research [62.92178873052468]
ESPnet2-TTSは、E2E-TTS(E2E-TTS)ツールキットである。
新機能としては、オンザフライフレキシブルプリプロセッシング、ニューラルボコーダとのジョイントトレーニング、フルバンドE2Eテキスト・トゥ・ウェーブフォームモデリングのような拡張を備えた最先端のTSモデルなどがある。
論文 参考訳(メタデータ) (2021-10-15T03:27:45Z) - The AS-NU System for the M2VoC Challenge [49.12981125333458]
M2VoC(MultiSpeaker Multi-Style Voice Cloning Challenge)における2トラックのAS-NUシステムについて述べる。
第1トラックは音声クローニングに100件のターゲット発話を使用することにフォーカスし、第2トラックは音声クローニングにわずか5件のターゲット発話を使用することにフォーカスした。
第2トラックにおけるデータ不足のため,ttsシステムの訓練データから,目標話者に最も近い話者を選択し,話者の発話と与えられた5つの目標発話を用いてモデルを微調整した。
論文 参考訳(メタデータ) (2021-04-07T09:26:20Z) - Learning Speaker Embedding from Text-to-Speech [59.80309164404974]
我々は,エンドツーエンドのTacotron 2 TTSと話者埋め込みネットワークを,自己指導型で共同で訓練した。
本研究は,手書き文字とASR書き起こし文字のトレーニングについて検討した。
教師なしTS埋め込みは、LibriTTSデータセットのi-vectorに関して、EERを2.06%改善した。
論文 参考訳(メタデータ) (2020-10-21T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。