論文の概要: ManchuTTS: Towards High-Quality Manchu Speech Synthesis via Flow Matching and Hierarchical Text Representation
- arxiv url: http://arxiv.org/abs/2512.22491v1
- Date: Sat, 27 Dec 2025 06:21:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.08358
- Title: ManchuTTS: Towards High-Quality Manchu Speech Synthesis via Flow Matching and Hierarchical Text Representation
- Title(参考訳): マンチュTTS:フローマッチングと階層的テキスト表現による高品質マンチュ音声合成を目指して
- Authors: Suhua Wang, Zifan Wang, Xiaoxin Sun, D. J. Wang, Zhanbo Liu, Xin Li,
- Abstract要約: 本稿では,満洲の言語的特徴に合わせた新しいアプローチである満州TTSを提案する。
ManchuTTSは6.24時間の注釈付きコーパスから派生した5.2時間のトレーニングサブセットを使用して4.52のMOSを得る。
- 参考スコア(独自算出の注目度): 7.3786243388580415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an endangered language, Manchu presents unique challenges for speech synthesis, including severe data scarcity and strong phonological agglutination. This paper proposes ManchuTTS(Manchu Text to Speech), a novel approach tailored to Manchu's linguistic characteristics. To handle agglutination, this method designs a three-tier text representation (phoneme, syllable, prosodic) and a cross-modal hierarchical attention mechanism for multi-granular alignment. The synthesis model integrates deep convolutional networks with a flow-matching Transformer, enabling efficient, non-autoregressive generation. This method further introduce a hierarchical contrastive loss to guide structured acoustic-linguistic correspondence. To address low-resource constraints, This method construct the first Manchu TTS dataset and employ a data augmentation strategy. Experiments demonstrate that ManchuTTS attains a MOS of 4.52 using a 5.2-hour training subset derived from our full 6.24-hour annotated corpus, outperforming all baseline models by a notable margin. Ablations confirm hierarchical guidance improves agglutinative word pronunciation accuracy (AWPA) by 31% and prosodic naturalness by 27%.
- Abstract(参考訳): 絶滅危惧言語である満洲は、重度のデータ不足や強い音韻的凝集など、音声合成に固有の課題を提示している。
本稿では,満洲の言語的特徴に合わせた新しいアプローチであるManchuTTS(Manchu Text to Speech)を提案する。
本手法は,3階層のテキスト表現(音素,音節,韻律)と多言語アライメントのためのモーダルな階層的アライメント機構を設計する。
合成モデルは、深い畳み込みネットワークとフローマッチング変換器を統合し、効率的な非自己回帰生成を可能にする。
この手法はさらに階層的なコントラスト損失を導入し、構造化音響言語対応を導出する。
低リソース制約に対処するため、本手法では、最初のManchu TTSデータセットを構築し、データ拡張戦略を用いる。
実験により、ManchuTTSは全6.24時間の注釈付きコーパスから派生した5.2時間のトレーニングサブセットを使用して4.52のMOSを達成し、すべてのベースラインモデルを顕著なマージンで上回った。
アブレーションにより、階層的指導により、凝集的単語発音精度(AWPA)が31%向上し、韻律的自然度が27%向上することが確認された。
関連論文リスト
- GOAT-TTS: Expressive and Realistic Speech Generation via A Dual-Branch LLM [42.93855899824886]
新たな2分岐ArchiTecture(GOAT-TTS)を用いた音声合成手法を提案する。
GOAT-TTSは音声エンコーダとプロジェクタを組み合わせて連続的な音響埋め込みをキャプチャし、パラ言語的特徴(言語、音色、感情)と意味的テキスト表現の双方向の相関を可能にする。
実験の結果,GOAT-TTSは最先端のTSモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-15T01:44:56Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Style Description based Text-to-Speech with Conditional Prosodic Layer
Normalization based Diffusion GAN [17.876323494898536]
本稿では,4段階以内の音声サンプルを生成するための入力として,スタイル記述とコンテンツテキストに基づく高忠実度音声を生成するための拡散GANに基づくアプローチ(韻律Diff-TTS)を提案する。
提案手法の有効性を多話者LibriTTSおよびPromptSpeechデータセットに示す。
論文 参考訳(メタデータ) (2023-10-27T14:28:41Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - MAESTRO: Matched Speech Text Representations through Modality Matching [35.566604806335626]
Maestroは、音声とテキストのモダリティから学習した表現を統一する自己教師型訓練手法である。
単語誤り率(WER)を11%低減したVoxPopuli多言語ASR上でのSOTA(State-of-the-art)を確立する。
我々はCoVoST 2上に新しい最先端のSOTA(State-of-the-art)を確立し、21以上の言語で平均2.8BLEUを改善した。
論文 参考訳(メタデータ) (2022-04-07T12:48:16Z) - Syntactic representation learning for neural network based TTS with
syntactic parse tree traversal [49.05471750563229]
本稿では,構文解析木に基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。
実験の結果,提案手法の有効性が示された。
複数の構文解析木を持つ文では、合成音声から韻律的差異が明確に認識される。
論文 参考訳(メタデータ) (2020-12-13T05:52:07Z) - Using previous acoustic context to improve Text-to-Speech synthesis [30.885417054452905]
我々は,従来の発話音声の埋め込みを生成する音響コンテキストエンコーダを用いて,データのシーケンシャルな性質を活用する。
2つの二次タスクを比較する:発話ペアの順序の予測と、現在の発話音声の埋め込みの予測。
論文 参考訳(メタデータ) (2020-12-07T15:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。