論文の概要: Adaptive Duration Model for Text Speech Alignment
- arxiv url: http://arxiv.org/abs/2507.22612v1
- Date: Wed, 30 Jul 2025 12:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.192834
- Title: Adaptive Duration Model for Text Speech Alignment
- Title(参考訳): テキスト音声アライメントのための適応時間モデル
- Authors: Junjie Cao,
- Abstract要約: 音声からテキストへのアライメントは、ニューラルテキスト音声(TTS)モデルの重要コンポーネントである。
本稿では,音素レベルの持続時間分布を与えられたテキストで再現できる新しい持続時間予測フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.157734347781473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-to-text alignment is a critical component of neural text to-speech (TTS) models. Autoregressive TTS models typically use an attention mechanism to learn these alignments on-line. However, these alignments tend to be brittle and often fail to generalize to long utterances and out-of-domain text, leading to missing or repeating words. Most non-autoregressive end to-end TTS models rely on durations extracted from external sources, using additional duration models for alignment. In this paper, we propose a novel duration prediction framework that can give compromising phoneme-level duration distribution with given text. In our experiments, the proposed duration model has more precise prediction and condition adaptation ability compared to previous baseline models. Numerically, it has roughly a 11.3 percents immprovement on alignment accuracy, and makes the performance of zero-shot TTS models more robust to the mismatch between prompt audio and input audio.
- Abstract(参考訳): 音声からテキストへのアライメントは、ニューラルテキスト音声(TTS)モデルの重要コンポーネントである。
自動回帰TSモデルは通常、これらのアライメントをオンラインに学習するために注意機構を使用する。
しかし、これらのアライメントは脆く、長い発話やドメイン外テキストに一般化できないことが多く、単語の欠落や繰り返しにつながる。
ほとんどの非自己回帰的なエンドツーエンドTSモデルは、アライメントのための追加の持続時間モデルを使用して外部ソースから抽出された時間に依存する。
本稿では,所与のテキストで音素レベルの持続時間分布を再現できる新しい持続時間予測フレームワークを提案する。
本実験では,提案モデルにより,従来のベースラインモデルよりも精度の高い予測と条件適応が可能となった。
数値的には、アライメント精度が約11.3%向上し、ゼロショットTSモデルの性能は、インプットオーディオとインプットオーディオのミスマッチに対してより堅牢になる。
関連論文リスト
- MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - DiTTo-TTS: Diffusion Transformers for Scalable Text-to-Speech without Domain-Specific Factors [8.419383213705789]
本稿では,Diffusion Transformer (DiT) ベースのTSモデルであるDiTTo-TTSを導入し,LDMベースのTSがドメイン固有の要因を伴わずに最先端の性能を達成できるかどうかを検討する。
最小修正のDiTは、U-Netよりも優れており、音声長予測器による可変長モデリング、音声潜在表現のセマンティックアライメントなどの条件は、さらなる拡張の鍵となる。
論文 参考訳(メタデータ) (2024-06-17T11:25:57Z) - Text Injection for Neural Contextual Biasing [57.589903308622745]
本研究では文脈テキストインジェクション(CTI)を提案する。
1000億のテキストを持つCTIは、強い神経バイアスモデルから43.3%の相対的なWER削減を達成することができる。
論文 参考訳(メタデータ) (2024-06-05T04:20:17Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Duration-aware pause insertion using pre-trained language model for
multi-speaker text-to-speech [40.65850332919397]
事前訓練された言語モデルに基づいて,より強力な停止挿入フレームワークを提案する。
提案手法では,大規模テキストコーパス上で事前学習した変換器(BERT)の双方向エンコーダ表現を用いる。
また、より自然なマルチスピーカTSに対して、持続時間対応の停止挿入を利用する。
論文 参考訳(メタデータ) (2023-02-27T10:40:41Z) - ParaTTS: Learning Linguistic and Prosodic Cross-sentence Information in
Paragraph-based TTS [19.988974534582205]
本稿では, 言語情報と韻律情報を, クロス文, 組込み構造を考慮した訓練によりモデル化することを提案する。
マンダリン系女性話者が記録した物語のオーディオブックコーパス(4.08時間)を訓練した。
提案したTSモデルは,比較的自然で高品質な音声節を生成できることを示す。
論文 参考訳(メタデータ) (2022-09-14T08:34:16Z) - One TTS Alignment To Rule Them All [26.355019468082247]
音声テキストアライメントは、ニューラルテキスト音声(TTS)モデルの重要な構成要素である。
本稿では,RAD-TTSにおけるアライメント機構を汎用的なアライメント学習フレームワークとして活用する。
このフレームワークは、フォワードサムアルゴリズム、ビタビアルゴリズム、単純で効率的な静的先行処理を組み合わせたものである。
論文 参考訳(メタデータ) (2021-08-23T23:45:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。