論文の概要: Neural Lexicon Reader: Reduce Pronunciation Errors in End-to-end TTS by
Leveraging External Textual Knowledge
- arxiv url: http://arxiv.org/abs/2110.09698v1
- Date: Tue, 19 Oct 2021 02:35:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 14:40:58.782484
- Title: Neural Lexicon Reader: Reduce Pronunciation Errors in End-to-end TTS by
Leveraging External Textual Knowledge
- Title(参考訳): Neural Lexicon Reader:外部テキスト知識を活用したエンドツーエンドTSにおける発音誤りの低減
- Authors: Mutian He, Jingzhou Yang, Lei He, Frank K. Soong
- Abstract要約: エンドツーエンドのTSSは、高価な音声コーパスが知識を学ぶために必要なすべての知識とニューラルモデルをカバーすることが困難であるため、高いデータ要求に悩まされる。
本稿では,Token2Knowledgeアテンションモジュールを用いて,構造化されていない外部リソースから知識を抽出するフレームワークを提案する。
実験は,低リソース,エンドツーエンドの中国語TTSにおける発音誤りを大幅に低減するフレームワークの可能性を支持する。
- 参考スコア(独自算出の注目度): 24.185534184743485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end TTS suffers from high data requirements as it is difficult for
both costly speech corpora to cover all necessary knowledge and neural models
to learn the knowledge, hence additional knowledge needs to be injected
manually. For example, to capture pronunciation knowledge on languages without
regular orthography, a complicated grapheme-to-phoneme pipeline needs to be
built based on a structured, large pronunciation lexicon, leading to extra,
sometimes high, costs to extend neural TTS to such languages. In this paper, we
propose a framework to learn to extract knowledge from unstructured external
resources using Token2Knowledge attention modules. The framework is applied to
build a novel end-to-end TTS model named Neural Lexicon Reader that extracts
pronunciations from raw lexicon texts. Experiments support the potential of our
framework that the model significantly reduces pronunciation errors in
low-resource, end-to-end Chinese TTS, and the lexicon-reading capability can be
transferred to other languages with a smaller amount of data.
- Abstract(参考訳): エンド・ツー・エンドのttsは、高価な音声コーパスが知識を学ぶために必要な全ての知識と神経モデルをカバーすることが困難であるため、追加の知識を手動で注入する必要があるため、高いデータ要求に苦しむ。
例えば、正規の正書法を使わずに言語における発音の知識を捉えるためには、構造化された大きな発音レキシコンに基づいて複雑なGrapheme-to-phonemeパイプラインを構築する必要がある。
本論文では,token2knowledgeアテンションモジュールを用いて,非構造化外部リソースから知識を抽出するためのフレームワークを提案する。
このフレームワークは、新しいエンドツーエンドttsモデルであるneural lexicon readerを構築し、生のレキシコンテキストから発音を抽出する。
実験により,低リソース,エンドツーエンドの中国語 TTS における発音誤りを大幅に低減し,辞書読解能力は少ないデータ量で他言語に転送できる可能性が示唆された。
関連論文リスト
- A multilingual training strategy for low resource Text to Speech [5.109810774427171]
ソーシャルメディアからのデータを、小さなTSデータセット構築に利用することができるか、また、言語間移動学習がこの種のデータに有効かどうかを検討する。
そこで本稿では,対象とする低リソース言語に対するTSモデルをトレーニングするために,外国語からのデータをどのように選択し,プールするかを検討する。
以上の結果から,多言語事前学習は単言語事前学習よりも,生成した音声の明瞭さと自然性を高めることが示唆された。
論文 参考訳(メタデータ) (2024-09-02T12:53:01Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - A Survey on Neural Speech Synthesis [110.39292386792555]
テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。
我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTSに関する包括的な調査を行っている。
我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TS、低リソースTS、堅牢TS、表現型TS、適応型TSなど、いくつかの先進的なトピックに焦点を当てる。
論文 参考訳(メタデータ) (2021-06-29T16:50:51Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Bootstrap an end-to-end ASR system by multilingual training, transfer
learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。
本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。
実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-11-25T13:11:32Z) - Detect Language of Transliterated Texts [0.0]
他の言語から英語へのインフォーマルな翻訳は、ソーシャルメディアのスレッド、インスタントメッセージング、ディスカッションフォーラムで一般的である。
特徴抽出のための言語識別システム(LID)を提案する。
単語を音節にトークン化し,Long Short-Term Memory (LSTM) ネットワークアーキテクチャを用いて,文字の翻訳言語を検出する。
論文 参考訳(メタデータ) (2020-04-26T10:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。