論文の概要: Tibetan-TTS:Low-Resource Tibetan Speech Synthesis with Large Model Adaptation
- arxiv url: http://arxiv.org/abs/2605.02496v1
- Date: Mon, 04 May 2026 11:45:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.267781
- Title: Tibetan-TTS:Low-Resource Tibetan Speech Synthesis with Large Model Adaptation
- Title(参考訳): チベット語TTS:大規模モデル適応を用いた低音源チベット語音声合成
- Authors: Jiaxu He, Chao Wang, Jie Lian, Yuqing Cai, Yongxiang Li, Renzeg Duojie, Jie Li,
- Abstract要約: 本研究は,Xingchen AGI Lab が開発した大規模音声合成モデルに基づく,大規模モデルに基づくチベットTTSシステムを提案する。
実験結果から, 低資源環境下では, 安定した, 自然な, 理解可能なチベット語音声を生成できることが示唆された。
以上の結果から,大規模なモデルバックボーンとチベット語指向のテキスト表現適応と言語間適応学習を組み合わせることで,低リソースのチベット語音声合成が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 12.646367121453485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tibetan text-to-speech (TTS) has long been challenged by scarce speech resources, significant dialectal variation, and the complex mapping between written text and spoken pronunciation. To address these issues, this work presents, to the best of our knowledge, the first large-model-based Tibetan TTS system in the industry, built upon a large speech synthesis model developed by Xingchen AGI Lab. The proposed system integrates data quality enhancement, Tibetan-oriented text representation and tokenizer adaptation, and cross-lingual adaptive training for low-resource Tibetan speech synthesis. Experimental results show that the system can generate stable, natural, and intelligible Tibetan speech under low-resource conditions. In subjective evaluation, the MOS scores of the syllable-level and BPE-based systems reach 4.28 and 4.35, while their pronunciation accuracies reach 97.6% and 96.6%, respectively, outperforming an external commercial Tibetan TTS interface. These results demonstrate that combining a large-model backbone with Tibetan-oriented text representation adaptation and cross-lingual adaptive training enables highly usable low-resource Tibetan speech synthesis, and also provides a technical foundation for future unified multi-dialect Tibetan speech synthesis.
- Abstract(参考訳): チベット語テキスト・トゥ・スペーチ(TTS)は、音声資源の不足、方言の顕著な変化、テキストと音声の発音の複雑なマッピングなどにより、長年に渡り挑戦されてきた。
これらの課題に対処するため,本研究は,Xingchen AGI Labが開発した大規模音声合成モデルを基に構築された,業界初の大規模モデルベースのTTSシステムであるチベット語TSシステムについて,我々の知る限りで紹介する。
提案システムは,低リソースのチベット語音声合成のためのデータ品質向上,チベット語指向のテキスト表現とトークンライザ適応,および言語間適応学習を統合した。
実験結果から, 低資源環境下では, 安定した, 自然な, 理解可能なチベット語音声を生成できることが示唆された。
主観評価では、音節レベルとBPEベースのシステムのMOSスコアは4.28と4.35で、発音精度は97.6%、96.6%で、チベットのTTSインターフェースを上回ります。
これらの結果から,大規模なモデルバックボーンとチベット語指向のテキスト表現適応と言語間適応学習を組み合わせることで,低リソースのチベット語音声合成が実現可能であること,また,将来統合されたチベット語音声合成のための技術基盤を提供する。
関連論文リスト
- Align2Speak: Improving TTS for Low Resource Languages via ASR-Guided Online Preference Optimization [13.222167833914924]
自動回帰型多言語TSモデルを新しい言語に適用するためのフレームワークを提案する。
我々は、ターゲット言語の韻律的特徴を捉えるために、新しい言語の限られたペアデータに基づいて、このモデルを微調整する。
実験により、このパイプラインは低リソース言語で理解不能で話者一貫性のある音声を生成することが示された。
論文 参考訳(メタデータ) (2025-09-26T00:28:50Z) - TMD-TTS: A Unified Tibetan Multi-Dialect Text-to-Speech Synthesis for Ü-Tsang, Amdo and Kham Speech Dataset Generation [14.047778911628798]
TMD-TTSはチベットの多言語テキスト音声合成フレームワークである。
明示的な方言ラベルから平行方言音声を合成する。
論文 参考訳(メタデータ) (2025-09-22T17:38:52Z) - BnTTS: Few-Shot Speaker Adaptation in Low-Resource Setting [9.335211682615213]
本稿では,Bangla話者適応型TSの最初のフレームワークであるBnTTSを紹介する。
我々は、Bangla音声データセットの3.85k時間におけるBnTTSの事前訓練を行い、ゼロショットと少数ショットの両方で性能を評価する。
その結果,BnTTSはBangla音声の自然性,知性,話者の忠実度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-02-09T00:15:47Z) - VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka [10.784402571965867]
VoxHakka(ヴォックスハッカ、VoxHakka)は、台湾の言語であるHakka向けに設計された音声合成システムである。
VoxHakkaは音声合成における自然性と精度,低リアルタイム化を実現している。
論文 参考訳(メタデータ) (2024-09-03T02:37:34Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised
Learning for Text-To-Speech [37.942466944970704]
本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。
様々な音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSおよびASRデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。
実験により、Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知性に優れることが示された。
論文 参考訳(メタデータ) (2022-10-27T14:09:48Z) - A Survey on Neural Speech Synthesis [110.39292386792555]
テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。
我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTSに関する包括的な調査を行っている。
我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TS、低リソースTS、堅牢TS、表現型TS、適応型TSなど、いくつかの先進的なトピックに焦点を当てる。
論文 参考訳(メタデータ) (2021-06-29T16:50:51Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。