論文の概要: Scalable Multilingual Frontend for TTS
- arxiv url: http://arxiv.org/abs/2004.04934v1
- Date: Fri, 10 Apr 2020 08:00:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 20:53:46.776020
- Title: Scalable Multilingual Frontend for TTS
- Title(参考訳): TTSのためのスケーラブルな多言語フロントエンド
- Authors: Alistair Conkie, Andrew Finch
- Abstract要約: 本稿では、多くの言語に対応し、新しい言語に容易に拡張可能な、ニューラルテキスト・トゥ・スペーチ(TTS)フロントエンド作成の進捗について述べる。
文レベルでの正規化と発音の両方をS2S(Sequence-to-Sequence)モデルを用いて構築し,モデル化する。
言語に依存しない発音アプローチでは、辞書は使用しません。代わりに、文脈ベースの発音を含む全ての発音がS2Sモデルでキャプチャされます。
- 参考スコア(独自算出の注目度): 4.1203601403593275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes progress towards making a Neural Text-to-Speech (TTS)
Frontend that works for many languages and can be easily extended to new
languages. We take a Machine Translation (MT) inspired approach to constructing
the frontend, and model both text normalization and pronunciation on a sentence
level by building and using sequence-to-sequence (S2S) models. We experimented
with training normalization and pronunciation as separate S2S models and with
training a single S2S model combining both functions.
For our language-independent approach to pronunciation we do not use a
lexicon. Instead all pronunciations, including context-based pronunciations,
are captured in the S2S model. We also present a language-independent chunking
and splicing technique that allows us to process arbitrary-length sentences.
Models for 18 languages were trained and evaluated. Many of the accuracy
measurements are above 99%. We also evaluated the models in the context of
end-to-end synthesis against our current production system.
- Abstract(参考訳): 本稿では,多くの言語に対応し,新しい言語に容易に拡張可能な,ニューラルテキスト音声フロントエンド(TTS)の開発について述べる。
機械翻訳(MT)にインスパイアされた手法をフロントエンドの構築に適用し,文レベルでの正規化と発音の両方をS2Sモデルを用いてモデル化する。
我々は,S2Sモデルの正規化と発音の訓練を行い,両機能を組み合わせたS2Sモデルの訓練を行った。
発音に対する言語非依存のアプローチでは、語彙を使用しない。
代わりに、文脈ベースの発音を含む全ての発音は、S2Sモデルでキャプチャされる。
また,任意の長さの文を処理できる言語に依存しないチャンキングとスプライシング手法を提案する。
18言語のモデルが訓練され、評価された。
精度測定の多くは99%以上である。
また,現在の生産システムに対するエンドツーエンド合成の文脈での評価を行った。
関連論文リスト
- Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。
異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T14:33:33Z) - Textless Direct Speech-to-Speech Translation with Discrete Speech
Representation [27.182170555234226]
本研究では,テキストの監督なしにエンドツーエンドの直接S2STモデルをトレーニングするための新しいモデルであるTextless Translatotronを提案する。
教師なし音声データで事前訓練された音声エンコーダを両方のモデルに使用すると、提案モデルはトランスラトトロン2とほぼ同等の翻訳品質が得られる。
論文 参考訳(メタデータ) (2022-10-31T19:48:38Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Modeling Prosodic Phrasing with Multi-Task Learning in Tacotron-based
TTS [74.11899135025503]
本稿では,Tacotronに基づく音声合成フレームワークを拡張し,韻律句のブレークを明示的にモデル化する。
提案手法は中国語とモンゴル語の両方の音質を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:57:29Z) - One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech [3.42658286826597]
本稿では,文脈パラメータ生成のメタラーニング概念を用いた多言語音声合成手法を提案する。
本モデルでは,言語間で効率的に情報を共有できることが示され,主観的評価テストにより,ベースラインよりも自然な,正確なコードスイッチング音声を生成する。
論文 参考訳(メタデータ) (2020-08-03T10:43:30Z) - Neural Machine Translation for Multilingual Grapheme-to-Phoneme
Conversion [13.543705472805431]
複数の言語で同じエンコーダとデコーダを共有する単一エンドツーエンドのニューラルネットワークG2Pモデルを提案する。
その結果,低リソース言語に対する音素誤り率の平均は7.2%向上し,単言語ベースラインと比較して高いリソースエラー率が得られなかった。
論文 参考訳(メタデータ) (2020-06-25T06:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。