論文の概要: A2TTS: TTS for Low Resource Indian Languages
- arxiv url: http://arxiv.org/abs/2507.15272v1
- Date: Mon, 21 Jul 2025 06:20:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.279257
- Title: A2TTS: TTS for Low Resource Indian Languages
- Title(参考訳): A2TTS: 低資源インド語のためのTS
- Authors: Ayush Singh Bhadoriya, Abhishek Nikunj Shinde, Isha Pandey, Ganesh Ramakrishnan,
- Abstract要約: 未確認話者のための音声生成を目的とした話者条件付きテキスト音声合成システム(TTS)を提案する。
拡散型TSアーキテクチャを用いて、話者エンコーダは、複数話者生成のためのDDPMデコーダを条件に、短い参照オーディオサンプルから埋め込みを抽出する。
我々は、参照音声を利用するクロスアテンションに基づく継続時間予測機構を採用し、より正確で話者の一貫性のあるタイミングを可能にする。
- 参考スコア(独自算出の注目度): 16.782842482372427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a speaker conditioned text-to-speech (TTS) system aimed at addressing challenges in generating speech for unseen speakers and supporting diverse Indian languages. Our method leverages a diffusion-based TTS architecture, where a speaker encoder extracts embeddings from short reference audio samples to condition the DDPM decoder for multispeaker generation. To further enhance prosody and naturalness, we employ a cross-attention based duration prediction mechanism that utilizes reference audio, enabling more accurate and speaker consistent timing. This results in speech that closely resembles the target speaker while improving duration modeling and overall expressiveness. Additionally, to improve zero-shot generation, we employed classifier free guidance, allowing the system to generate speech more near speech for unknown speakers. Using this approach, we trained language-specific speaker-conditioned models. Using the IndicSUPERB dataset for multiple Indian languages such as Bengali, Gujarati, Hindi, Marathi, Malayalam, Punjabi and Tamil.
- Abstract(参考訳): 本研究では,未確認話者のための音声生成の課題に対処し,多様なインドの言語をサポートすることを目的とした話者条件付きテキスト音声合成システムを提案する。
提案手法では,話者エンコーダが短い参照音声サンプルから埋め込みを抽出し,DDPMデコーダを用いてマルチスピーカ生成を行う。
韻律と自然性をさらに高めるために,参照音声を利用するクロスアテンションに基づく継続時間予測機構を採用し,より正確で話者の一貫性のあるタイミングを実現する。
この結果,発話の持続時間モデルと全体表現性を改善しつつ,ターゲット話者と密接に類似する音声が得られた。
さらに,ゼロショット生成を改善するために,未知話者の音声に近い音声を生成するために,分類器フリーガイダンスを採用した。
このアプローチを用いて、言語固有の話者条件付きモデルを訓練した。
IndicSUPERBデータセットは、ベンガル語、グジャラート語、ヒンディー語、マラチ語、マラヤラム語、パンジャビ語、タミル語など、複数のインドの言語で使用されている。
関連論文リスト
- Technical report: Impact of Duration Prediction on Speaker-specific TTS for Indian Languages [16.782842482372427]
本研究では,非自己回帰型連続正規化フロー(CNF)に基づく音声モデルを,公開言語データを用いて学習する。
ゼロショット・話者固有生成のための複数の継続時間予測戦略を評価する。
論文 参考訳(メタデータ) (2025-07-22T09:38:30Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Predicting positive transfer for improved low-resource speech
recognition using acoustic pseudo-tokens [31.83988006684616]
我々は、ターゲット言語を、類似の高リソースの「ドナー」言語からのデータで補うことが役立つことを示す。
例えば、60時間ドナーのヒンディーが補充された低リソースのパンジャービの10時間のみの事前訓練は、70時間ドナーのパンジャービの70時間ドナーのほぼ同程度である。
論文 参考訳(メタデータ) (2024-02-03T23:54:03Z) - Rapid Speaker Adaptation in Low Resource Text to Speech Systems using
Synthetic Data and Transfer learning [6.544954579068865]
本稿では,高ソース言語データと合成データを用いたトランスファー学習手法を提案する。
我々は、低リソースのインドのヒンディー語で高品質な単一話者TSシステムの訓練に3段階のアプローチを採用する。
論文 参考訳(メタデータ) (2023-12-02T10:52:00Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - Towards Building Text-To-Speech Systems for the Next Billion Users [18.290165216270452]
そこで我々は,ドラヴィダ語とインド・アーリア語に対する音響モデル,ボコーダ,補足的損失関数,訓練スケジュール,話者および言語多様性の選択について検討した。
我々は,13言語を対象としたTSモデルをトレーニングし,評価し,各言語における既存のモデルを大幅に改善するモデルを見出した。
論文 参考訳(メタデータ) (2022-11-17T13:59:34Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking
Head Generation Using Phonetic Posteriorgrams [58.617181880383605]
そこで本研究では,音声後部グラフを用いた新しい手法を提案する。
我々の手法は手作りの特徴を必要とせず、近年の手法に比べてノイズに強い。
本モデルは,複数言語/混合言語音声を説得力のある入力としてサポートした最初のモデルである。
論文 参考訳(メタデータ) (2020-06-20T16:32:43Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。