論文の概要: TMD-TTS: A Unified Tibetan Multi-Dialect Text-to-Speech Synthesis for Ü-Tsang, Amdo and Kham Speech Dataset Generation
- arxiv url: http://arxiv.org/abs/2509.18060v1
- Date: Mon, 22 Sep 2025 17:38:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.544273
- Title: TMD-TTS: A Unified Tibetan Multi-Dialect Text-to-Speech Synthesis for Ü-Tsang, Amdo and Kham Speech Dataset Generation
- Title(参考訳): TMD-TTS:オータン、アムド、カム音声データセット生成のための統一チベット語多言語テキスト音声合成
- Authors: Yutong Liu, Ziyue Zhang, Ban Ma-bao, Renzeng Duojie, Yuqing Cai, Yongbin Yu, Xiangxiang Wang, Fan Gao, Cheng Huang, Nyima Tashi,
- Abstract要約: TMD-TTSはチベットの多言語テキスト音声合成フレームワークである。
明示的な方言ラベルから平行方言音声を合成する。
- 参考スコア(独自算出の注目度): 14.047778911628798
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tibetan is a low-resource language with limited parallel speech corpora spanning its three major dialects (\"U-Tsang, Amdo, and Kham), limiting progress in speech modeling. To address this issue, we propose TMD-TTS, a unified Tibetan multi-dialect text-to-speech (TTS) framework that synthesizes parallel dialectal speech from explicit dialect labels. Our method features a dialect fusion module and a Dialect-Specialized Dynamic Routing Network (DSDR-Net) to capture fine-grained acoustic and linguistic variations across dialects. Extensive objective and subjective evaluations demonstrate that TMD-TTS significantly outperforms baselines in dialectal expressiveness. We further validate the quality and utility of the synthesized speech through a challenging Speech-to-Speech Dialect Conversion (S2SDC) task.
- Abstract(参考訳): チベット語は3つの主要な方言(「U-Tsang」「Amdo」「Kham」)にまたがる限られたパラレル音声コーパスを持つ低リソース言語であり、音声モデリングの進歩を制限している。
この問題に対処するため,チベット語多言語テキスト音声合成(TTS)フレームワークであるTMD-TTSを提案する。
本手法は,方言融合モジュールとDDR-Net(Dialect-Specialized Dynamic Routing Network)を特徴とし,方言間の音響的・言語的相違を詳細に把握する。
TMD-TTSは, 方言の表現力において, 主観的, 主観的評価において, 基線よりも有意に優れていた。
さらに,S2SDCタスクを課題として,合成音声の品質と有用性を検証した。
関連論文リスト
- FMSD-TTS: Few-shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for Ü-Tsang, Amdo and Kham Speech Dataset Generation [10.73307957038715]
FMSD-TTS(FMSD-TTS)は、音声合成フレームワーク。
限られた参照音声と明示的な方言ラベルから並列方言音声を合成する。
論文 参考訳(メタデータ) (2025-05-20T13:35:55Z) - Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT [29.167336994990542]
クロス・ディレクト・テキスト・トゥ・スペーチ(CD-TTS)は、非ネイティブ方言における学習された話者の声を合成するタスクである。
本稿では,3つのサブモジュールからなる新しいTSモデルを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:40:27Z) - UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts [64.02363948840333]
UMETTSは、複数のモーダルからの感情的手がかりを利用して、表現力が高く感情的に共鳴する音声を生成する新しいフレームワークである。
EP-Alignは対照的な学習を用いて、テキスト、オーディオ、視覚的モダリティをまたいだ感情的特徴を整合させ、マルチモーダル情報のコヒーレントな融合を保証する。
EMI-TTSは、アライメントされた感情埋め込みと最先端のTSモデルを統合し、意図した感情を正確に反映した音声を合成する。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech [30.110058338155675]
話者の音色を正確に保持することが難しいため,言語間テキスト合成 (CTTS) はまだ満足できない。
そこで本研究では,CTTS のための新しい2元話者埋め込み TTS (DSE-TTS) フレームワークを提案する。
両方の埋め込みを組み合わせることで、DSE-TTSは言語間合成において最先端のSANE-TTSよりも著しく優れる。
論文 参考訳(メタデータ) (2023-06-25T06:46:36Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。