論文の概要: A unified front-end framework for English text-to-speech synthesis
- arxiv url: http://arxiv.org/abs/2305.10666v3
- Date: Mon, 25 Mar 2024 10:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 03:48:07.949068
- Title: A unified front-end framework for English text-to-speech synthesis
- Title(参考訳): 英語音声合成のためのフロントエンド統合フレームワーク
- Authors: Zelin Ying, Chen Li, Yu Dong, Qiuqiang Kong, Qiao Tian, Yuanyuan Huo, Yuxuan Wang,
- Abstract要約: フロントエンドは英語のテキスト音声システムにおいて重要なコンポーネントである。
フロントエンドは通常、テキスト正規化(TN)モジュール、韻律語韻律句(PWPP)モジュール、G2Pモジュールで構成される。
本稿では、英語のTSフロントエンドモジュール間の依存関係をキャプチャする統合フロントエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.254126234872768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The front-end is a critical component of English text-to-speech (TTS) systems, responsible for extracting linguistic features that are essential for a text-to-speech model to synthesize speech, such as prosodies and phonemes. The English TTS front-end typically consists of a text normalization (TN) module, a prosody word prosody phrase (PWPP) module, and a grapheme-to-phoneme (G2P) module. However, current research on the English TTS front-end focuses solely on individual modules, neglecting the interdependence between them and resulting in sub-optimal performance for each module. Therefore, this paper proposes a unified front-end framework that captures the dependencies among the English TTS front-end modules. Extensive experiments have demonstrated that the proposed method achieves state-of-the-art (SOTA) performance in all modules.
- Abstract(参考訳): フロントエンドは、英語のテキスト音声合成システム(TTS)の重要な構成要素であり、韻律や音素などの音声を合成するために、テキスト音声合成モデルに不可欠な言語的特徴を抽出する役割を担っている。
英語のTTSフロントエンドは、典型的にはテキスト正規化(TN)モジュール、韻律語韻律句(PWPP)モジュール、グラフ音素対音素(G2P)モジュールからなる。
しかし、現在のTTSフロントエンドの研究は、個々のモジュールにのみ焦点をあてており、それぞれのモジュール間の相互依存を無視し、各モジュールに対して準最適性能をもたらす。
そこで本稿では、英語のTSフロントエンドモジュール間の依存関係をキャプチャする統合フロントエンドフレームワークを提案する。
実験により,提案手法は全モジュールのSOTA性能を向上することを示した。
関連論文リスト
- Prior-agnostic Multi-scale Contrastive Text-Audio Pre-training for Parallelized TTS Frontend Modeling [13.757256085713571]
本稿では,新たな2段階予測パイプラインであるTAP-FMを提案する。
具体的には,マルチスケールコントラストテキストオーディオ事前学習プロトコル(MC-TAP)を提案する。
本フレームワークは,グローバル・ローカル・テキスト・オーディオ・セマンティクスと音響表現の両方を深く掘り下げる機能を示す。
論文 参考訳(メタデータ) (2024-04-14T08:56:19Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - M2-CTTS: End-to-End Multi-scale Multi-modal Conversational
Text-to-Speech Synthesis [38.85861825252267]
M2-CTTSは、歴史的会話を包括的に活用し、韻律表現を強化することを目的としている。
我々は、粗粒度と細粒度の両方のモデリングにより、テキストコンテキストモジュールと音響コンテキストモジュールを設計する。
論文 参考訳(メタデータ) (2023-05-03T16:59:38Z) - UTTS: Unsupervised TTS with Conditional Disentangled Sequential
Variational Auto-encoder [30.376259456529368]
TTS音響モデリング(AM)のためのテキストオーディオペアを必要としない、教師なし音声合成(UTTS)フレームワークを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Unified Mandarin TTS Front-end Based on Distilled BERT Model [5.103126953298633]
TTSフロントエンドにおける2つの重要なタスクに対処するために,プレトレーニング言語モデル(PLM)に基づくモデルを提案する。
トレーニング済みの中国語BERTをテキストエンコーダとして使用し、マルチタスク学習技術を用いて2つのTSフロントエンドタスクに適応する。
TTSフロントエンドモジュール全体を軽量で統一された方法で実行することができ、モバイルデバイスへの展開により友好的です。
論文 参考訳(メタデータ) (2020-12-31T02:34:57Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。