論文の概要: Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech
- arxiv url: http://arxiv.org/abs/2206.02147v3
- Date: Thu, 19 Oct 2023 06:22:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 21:34:23.485936
- Title: Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech
- Title(参考訳): Dict-TTS:テキストから音声への事前辞書知識の学習
- Authors: Ziyue Jiang, Zhe Su, Zhou Zhao, Qian Yang, Yi Ren, Jinglin Liu,
Zhenhui Ye
- Abstract要約: ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
- 参考スコア(独自算出の注目度): 88.22544315633687
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Polyphone disambiguation aims to capture accurate pronunciation knowledge
from natural text sequences for reliable Text-to-speech (TTS) systems. However,
previous approaches require substantial annotated training data and additional
efforts from language experts, making it difficult to extend high-quality
neural TTS systems to out-of-domain daily conversations and countless languages
worldwide. This paper tackles the polyphone disambiguation problem from a
concise and novel perspective: we propose Dict-TTS, a semantic-aware generative
text-to-speech model with an online website dictionary (the existing prior
information in the natural language). Specifically, we design a
semantics-to-pronunciation attention (S2PA) module to match the semantic
patterns between the input text sequence and the prior semantics in the
dictionary and obtain the corresponding pronunciations; The S2PA module can be
easily trained with the end-to-end TTS model without any annotated phoneme
labels. Experimental results in three languages show that our model outperforms
several strong baseline models in terms of pronunciation accuracy and improves
the prosody modeling of TTS systems. Further extensive analyses demonstrate
that each design in Dict-TTS is effective. The code is available at
\url{https://github.com/Zain-Jiang/Dict-TTS}.
- Abstract(参考訳): Polyphone disambiguation は、信頼あるテキスト音声(TTS)システムのための自然なテキストシーケンスから正確な発音知識をキャプチャすることを目的としている。
しかし、以前のアプローチでは、十分な注釈付きトレーニングデータと言語専門家による追加の努力を必要としており、高品質のニューラルttsシステムをドメイン外日々の会話や数え切れないほどの言語に拡張することは困難である。
本稿では,オンラインwebサイト辞書(自然言語における既存の先行情報)を用いた意味認識型音声合成モデルdict-ttsを提案する。
具体的には、s2paモジュールを、入力テキストシーケンスと辞書の先行意味論との間の意味パターンを一致させ、対応する発音を得るために設計し、s2paモジュールは、アノテートされた音素ラベルなしで、エンドツーエンドttsモデルで容易に訓練することができる。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れており,TSシステムの韻律モデルの改良が期待できる。
さらに広範な分析により、Dict-TTSの各設計が有効であることが示されている。
コードは \url{https://github.com/zain-jiang/dict-tts} で入手できる。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。
複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。
多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文 参考訳(メタデータ) (2023-07-31T14:29:06Z) - Controllable Emphasis with zero data for text-to-speech [57.12383531339368]
強調音声を簡易かつ効果的に処理する方法は、強調単語の予測持続時間を増加させることである。
これは自然度を7.3%向上させるスペクトログラム修正手法よりもはるかに優れていることを示し、基準女性のen-US音声に対して、文章中の強調された単語の正しさを40%精度で識別する。
論文 参考訳(メタデータ) (2023-07-13T21:06:23Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - DTW-SiameseNet: Dynamic Time Warped Siamese Network for Mispronunciation
Detection and Correction [1.8322859214908722]
本稿では,TTS誤発音検出と修正のタスクのための,高精度でPDA対応の発音学習フレームワークを提案する。
また,三重項損失を伴う動的時間ワープ(DTW)のためのメトリクス学習を用いたDTW-SiameseNetという,新しい誤発音検出モデルを提案する。
人間の評価から,提案手法は音素ベースや音声ベースラインに比べて平均6%の発音精度が向上することが示された。
論文 参考訳(メタデータ) (2023-03-01T01:53:11Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - RWEN-TTS: Relation-aware Word Encoding Network for Natural
Text-to-Speech Synthesis [3.591224588041813]
膨大な数のTTSモデルが人間のような音声を生成する。
リレーショナル・アウェア・ワード・ネットワーク(RWEN)は,2つのモジュールをベースとした統語的・意味的情報を実現する。
実験結果から, 前作に比べて大幅な改善が見られた。
論文 参考訳(メタデータ) (2022-12-15T16:17:03Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z) - Scalable Multilingual Frontend for TTS [4.1203601403593275]
本稿では、多くの言語に対応し、新しい言語に容易に拡張可能な、ニューラルテキスト・トゥ・スペーチ(TTS)フロントエンド作成の進捗について述べる。
文レベルでの正規化と発音の両方をS2S(Sequence-to-Sequence)モデルを用いて構築し,モデル化する。
言語に依存しない発音アプローチでは、辞書は使用しません。代わりに、文脈ベースの発音を含む全ての発音がS2Sモデルでキャプチャされます。
論文 参考訳(メタデータ) (2020-04-10T08:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。