論文の概要: VANI: Very-lightweight Accent-controllable TTS for Native and Non-native
speakers with Identity Preservation
- arxiv url: http://arxiv.org/abs/2303.07578v1
- Date: Tue, 14 Mar 2023 01:55:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 16:42:32.089659
- Title: VANI: Very-lightweight Accent-controllable TTS for Native and Non-native
speakers with Identity Preservation
- Title(参考訳): VANI: アイデンティティ保護を備えたネイティブおよび非ネイティブ話者のための超軽量アクセント制御可能なTS
- Authors: Rohan Badlani, Akshit Arora, Subhankar Ghosh, Rafael Valle, Kevin J.
Shih, Jo\~ao Felipe Santos, Boris Ginsburg, Bryan Catanzaro
- Abstract要約: 非常に軽量な多言語アクセント制御型音声合成システムVANIを紹介する。
我々は、ICASSP Signal Processing Grand Challengeの一部としてLIMMITS 2023向けにリリースされたIndic言語データセットを使用して、3つの異なる言語で音声を合成する。
- 参考スコア(独自算出の注目度): 25.210244564579522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce VANI, a very lightweight multi-lingual accent controllable
speech synthesis system. Our model builds upon disentanglement strategies
proposed in RADMMM and supports explicit control of accent, language, speaker
and fine-grained $F_0$ and energy features for speech synthesis. We utilize the
Indic languages dataset, released for LIMMITS 2023 as part of ICASSP Signal
Processing Grand Challenge, to synthesize speech in 3 different languages. Our
model supports transferring the language of a speaker while retaining their
voice and the native accent of the target language. We utilize the
large-parameter RADMMM model for Track $1$ and lightweight VANI model for Track
$2$ and $3$ of the competition.
- Abstract(参考訳): 非常に軽量な多言語アクセント制御型音声合成システムVANIを紹介する。
我々のモデルは、RADMMMで提案されたアンタングル化戦略に基づいており、アクセント、言語、話者、きめ細かい$F_0$と音声合成のためのエネルギー的特徴の明示的な制御をサポートしている。
我々は、ICASSP Signal Processing Grand Challengeの一部としてLIMMITS 2023向けにリリースされたIndic言語データセットを使用して、3つの異なる言語で音声を合成する。
本モデルでは,話者の声と母国語のアクセントを維持しながら,話者の言語伝達を支援する。
大型のRADMMMモデルをトラックに1ドル、軽量のVANIモデルを2ドル、競合の3ドルに利用しています。
関連論文リスト
- FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - Multilingual Multiaccented Multispeaker TTS with RADTTS [21.234787964238645]
RADTTSに基づく多言語・多言語・多話者音声合成モデルを提案する。
7つのアクセントからなるオープンソースデータセットにおいて、任意の話者に対して合成アクセントを制御する能力を示す。
論文 参考訳(メタデータ) (2023-01-24T22:39:04Z) - Towards Building Text-To-Speech Systems for the Next Billion Users [18.290165216270452]
そこで我々は,ドラヴィダ語とインド・アーリア語に対する音響モデル,ボコーダ,補足的損失関数,訓練スケジュール,話者および言語多様性の選択について検討した。
我々は,13言語を対象としたTSモデルをトレーニングし,評価し,各言語における既存のモデルを大幅に改善するモデルを見出した。
論文 参考訳(メタデータ) (2022-11-17T13:59:34Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。