論文の概要: BnTTS: Few-Shot Speaker Adaptation in Low-Resource Setting
- arxiv url: http://arxiv.org/abs/2502.05729v1
- Date: Sun, 09 Feb 2025 00:15:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:58.768953
- Title: BnTTS: Few-Shot Speaker Adaptation in Low-Resource Setting
- Title(参考訳): BnTTS: 低リソース環境におけるFew-Shot Speaker Adaptation
- Authors: Mohammad Jahid Ibna Basher, Md Kowsher, Md Saiful Islam, Rabindra Nath Nandi, Nusrat Jahan Prottasha, Mehadi Hasan Menon, Tareq Al Muntasir, Shammur Absar Chowdhury, Firoj Alam, Niloofar Yousefi, Ozlem Ozmen Garibay,
- Abstract要約: 本稿では,Bangla話者適応型TSの最初のフレームワークであるBnTTSを紹介する。
我々は、Bangla音声データセットの3.85k時間におけるBnTTSの事前訓練を行い、ゼロショットと少数ショットの両方で性能を評価する。
その結果,BnTTSはBangla音声の自然性,知性,話者の忠実度を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 9.335211682615213
- License:
- Abstract: This paper introduces BnTTS (Bangla Text-To-Speech), the first framework for Bangla speaker adaptation-based TTS, designed to bridge the gap in Bangla speech synthesis using minimal training data. Building upon the XTTS architecture, our approach integrates Bangla into a multilingual TTS pipeline, with modifications to account for the phonetic and linguistic characteristics of the language. We pre-train BnTTS on 3.85k hours of Bangla speech dataset with corresponding text labels and evaluate performance in both zero-shot and few-shot settings on our proposed test dataset. Empirical evaluations in few-shot settings show that BnTTS significantly improves the naturalness, intelligibility, and speaker fidelity of synthesized Bangla speech. Compared to state-of-the-art Bangla TTS systems, BnTTS exhibits superior performance in Subjective Mean Opinion Score (SMOS), Naturalness, and Clarity metrics.
- Abstract(参考訳): 本稿では,Bangla話者適応型TTSの最初のフレームワークであるBnTTS(Bangla Text-To-Speech)を紹介する。
XTTSアーキテクチャを基盤として,Banglaを多言語TTSパイプラインに統合し,言語の特徴と言語的特徴を考慮に入れた。
我々は,Bangla音声データセットの3.85k時間に,対応するテキストラベルを用いてBnTTSを事前訓練し,提案したテストデータセットにおけるゼロショットと少数ショットの両方のパフォーマンスを評価する。
その結果,BnTTSはBangla音声の自然性,知性,話者の忠実度を著しく向上させることがわかった。
最先端のバングラTTSシステムと比較すると、BnTTSは主観的平均オピニオンスコア(SMOS)、自然度、明度で優れた性能を示す。
関連論文リスト
- Towards Lightweight and Stable Zero-shot TTS with Self-distilled Representation Disentanglement [17.020173869112163]
軽量で安定なテキスト音声合成システム(TTS)を提案する。
本稿では,音源音声から言語内容や話者属性を効果的にモデル化する新しいTSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-01-15T04:17:48Z) - Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT [29.167336994990542]
クロス・ディレクト・テキスト・トゥ・スペーチ(CD-TTS)は、非ネイティブ方言における学習された話者の声を合成するタスクである。
本稿では,3つのサブモジュールからなる新しいTSモデルを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:40:27Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Noise-robust zero-shot text-to-speech synthesis conditioned on
self-supervised speech-representation model with adapters [47.75276947690528]
ゼロショットテキスト音声(TTS)法は,話者特性を極めて正確に再現することができる。
しかし、この手法は、参照音声が雑音を含む場合、音声合成品質の劣化に悩まされる。
本稿では,ノイズロストゼロショットTS法を提案する。
論文 参考訳(メタデータ) (2024-01-10T12:21:21Z) - DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech [30.110058338155675]
話者の音色を正確に保持することが難しいため,言語間テキスト合成 (CTTS) はまだ満足できない。
そこで本研究では,CTTS のための新しい2元話者埋め込み TTS (DSE-TTS) フレームワークを提案する。
両方の埋め込みを組み合わせることで、DSE-TTSは言語間合成において最先端のSANE-TTSよりも著しく優れる。
論文 参考訳(メタデータ) (2023-06-25T06:46:36Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice
Conversion for everyone [0.7927630381442314]
YourTTSは、ゼロショットマルチスピーカーTSのタスクに多言語アプローチのパワーをもたらす。
我々は、VCTKデータセット上のゼロショット音声変換において、ゼロショットマルチスピーカTSとSOTAに匹敵する結果を得る。
1分未満の音声でYourTTSモデルを微調整し、最先端の結果を音声に類似し、妥当な品質で達成することが可能である。
論文 参考訳(メタデータ) (2021-12-04T19:50:29Z) - Learning Speaker Embedding from Text-to-Speech [59.80309164404974]
我々は,エンドツーエンドのTacotron 2 TTSと話者埋め込みネットワークを,自己指導型で共同で訓練した。
本研究は,手書き文字とASR書き起こし文字のトレーニングについて検討した。
教師なしTS埋め込みは、LibriTTSデータセットのi-vectorに関して、EERを2.06%改善した。
論文 参考訳(メタデータ) (2020-10-21T18:03:16Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。