論文の概要: MahaTTS: A Unified Framework for Multilingual Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2508.14049v1
- Date: Tue, 05 Aug 2025 20:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-24 10:27:26.5229
- Title: MahaTTS: A Unified Framework for Multilingual Text-to-Speech Synthesis
- Title(参考訳): MahaTTS:多言語テキスト音声合成のための統一フレームワーク
- Authors: Jaskaran Singh, Amartya Roy Chowdhury, Raghav Prabhakar, Varshul C. W,
- Abstract要約: MahaTTS-v2は多言語対応の多言語テキスト音声合成システムである。
提案手法では,意味抽出にWav2Vec2.0トークン,テキストからセマンティック・モデリングにLanguage Model(LM)を利用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Text-to-Speech models pose a multilingual challenge, where most of the models traditionally focus on English and European languages, thereby hurting the potential to provide access to information to many more people. To address this gap, we introduce MahaTTS-v2 a Multilingual Multi-speaker Text-To-Speech (TTS) system that has excellent multilingual expressive capabilities in Indic languages. The model has been trained on around 20K hours of data specifically focused on Indian languages. Our approach leverages Wav2Vec2.0 tokens for semantic extraction, and a Language Model (LM) for text-to-semantic modeling. Additionally, we have used a Conditional Flow Model (CFM) for semantics to melspectogram generation. The experimental results indicate the effectiveness of the proposed approach over other frameworks. Our code is available at https://github.com/dubverse-ai/MahaTTSv2
- Abstract(参考訳): 現在のText-to-Speechモデルは、伝統的にほとんどのモデルが英語とヨーロッパの言語に重点を置いているため、より多くの人に情報を提供する可能性を損なう、多言語的な課題となっている。
このギャップに対処するために,多言語多話者テキスト音声(TTS)システムであるMahaTTS-v2を導入する。
このモデルは、インドの言語に特化した約20K時間のデータに基づいてトレーニングされている。
提案手法では,意味抽出にWav2Vec2.0トークン,テキストからセマンティック・モデリングにLanguage Model(LM)を利用する。
さらに,コンディショナルフローモデル(CFM)を用いて,メロメログラム生成のセマンティクスを構築した。
実験結果から,他のフレームワークに対する提案手法の有効性が示唆された。
私たちのコードはhttps://github.com/dubverse-ai/MahaTTSv2で利用可能です。
関連論文リスト
- Leveraging Unit Language Guidance to Advance Speech Modeling in Textless Speech-to-Speech Translation [48.769137497536]
本稿では,2つのモデリング課題を克服する単位言語を提案する。
単位言語はテキストのような表現形式とみなすことができる。
我々は,音声モデリングプロセスの指導に単位言語を利用するために,マルチタスク学習を実装した。
論文 参考訳(メタデータ) (2025-05-21T10:05:25Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised
Learning for Text-To-Speech [37.942466944970704]
本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。
様々な音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSおよびASRデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。
実験により、Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知性に優れることが示された。
論文 参考訳(メタデータ) (2022-10-27T14:09:48Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。