論文の概要: A Novel Chinese Dialect TTS Frontend with Non-Autoregressive Neural
Machine Translation
- arxiv url: http://arxiv.org/abs/2206.04922v1
- Date: Fri, 10 Jun 2022 07:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:00:22.610926
- Title: A Novel Chinese Dialect TTS Frontend with Non-Autoregressive Neural
Machine Translation
- Title(参考訳): 非自己回帰型ニューラルマシン翻訳を用いた中国語ttsフロントエンド
- Authors: Wudi Bao, Junhui Zhang, Junjie Pan, Xiang Yin
- Abstract要約: 翻訳モジュールを用いた中国語方言TTSを提案する。
マンダリンのテキストを正しい正書法と文法で慣用表現に変換するのに役立つ。
TTSに翻訳を取り入れた最初の作品である。
- 参考スコア(独自算出の注目度): 6.090922774386845
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Chinese dialect text-to-speech(TTS) system usually can only be utilized by
native linguists, because the written form of Chinese dialects has different
characters, idioms, grammar and usage from Mandarin, and even the local speaker
cannot input a correct sentence. For Mandarin text inputs, Chinese dialect TTS
can only generate partly-meaningful speech with relatively poor prosody and
naturalness. To lower the bar of use and make it more practical in commercial,
we propose a novel Chinese dialect TTS frontend with a translation module. It
helps to convert Mandarin text into idiomatic expressions with correct
orthography and grammar, so that the intelligibility and naturalness of the
synthesized speech can be improved. A non-autoregressive neural machine
translation model with a glancing sampling strategy is proposed for the
translation task. It is the first known work to incorporate translation with
TTS frontend. Our experiments on Cantonese approve that the proposed frontend
can help Cantonese TTS system achieve a 0.27 improvement in MOS with Mandarin
inputs.
- Abstract(参考訳): 中国の方言テキスト・トゥ・スペーチ(TTS)システムは、中国語方言の表記形式がマンダリンとは異なる文字、イディオム、文法、用法を持ち、現地の話者でさえ正しい文を入力できないため、通常、ネイティブ言語学者によってのみ利用することができる。
マンダリンのテキスト入力では、中国語の方言 TTS はプロソディと自然性に乏しい部分意味のある音声しか生成できない。
そこで本研究では,翻訳モジュールを備えた新しい中国語方言ttsフロントエンドを提案する。
マンダリン語のテキストを正しい正書法と文法で慣用的な表現に変換するのに役立ち、合成音声の理解性と自然性を向上させることができる。
翻訳タスクでは、滑空サンプリング戦略を用いた非回帰型ニューラルマシン翻訳モデルを提案する。
TTSフロントエンドに翻訳を組み込んだ最初の作品である。
提案するフロントエンドは,マンダリン入力によるMOSの0.27改善を実現する上で有効である。
関連論文リスト
- Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation [3.9166923630129604]
Bailing-TTSは、高品質の中国語方言を生成できる大規模なTSモデルのファミリーである。
中国語の方言表現学習は、特定のトランスフォーマーアーキテクチャと多段階学習プロセスを用いて開発されている。
実験により、Bailing-TTSは人のような自然表現に向けて中国語の方言音声を生成することが示された。
論文 参考訳(メタデータ) (2024-08-01T04:57:31Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Improve Bilingual TTS Using Dynamic Language and Phonology Embedding [10.244215079409797]
本稿では,中国語の単言語話者からより標準の英語音声を取得するために,マンダリン・イングリッシュ・TSシステムを構築した。
言語と音韻の動的強度を捉えるための埋め込み強度変調器を特別に設計する。
論文 参考訳(メタデータ) (2022-12-07T03:46:18Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - A Study of Modeling Rising Intonation in Cantonese Neural Speech
Synthesis [10.747119651974947]
宣言的な質問は毎日のカントン会話でよく使われる。
Vanilla Neural Text-to-Speech (TTS) システムはこれらの文に対して上昇するイントネーションを合成することができない。
本稿では, BERTに基づく文/問合せ分類器を用いて, Cantonese TTSモデルを補完することを提案する。
論文 参考訳(メタデータ) (2022-08-03T16:21:08Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Towards Natural Bilingual and Code-Switched Speech Synthesis Based on
Mix of Monolingual Recordings and Cross-Lingual Voice Conversion [28.830575877307176]
両方の言語でネイティブレベルの流布を実現する話者からバイリンガルコーパスを得るのは容易ではない。
タコトロン2に基づく音声変換システムを用いて、マンダリン話者の英語音声と英語話者のマンダリン音声を生成する。
得られたバイリンガルデータは、Transformerモデルを用いて合成されたコード切替発話で拡張される。
論文 参考訳(メタデータ) (2020-10-16T03:51:00Z) - Modeling Prosodic Phrasing with Multi-Task Learning in Tacotron-based
TTS [74.11899135025503]
本稿では,Tacotronに基づく音声合成フレームワークを拡張し,韻律句のブレークを明示的にモデル化する。
提案手法は中国語とモンゴル語の両方の音質を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:57:29Z) - g2pM: A Neural Grapheme-to-Phoneme Conversion Package for Mandarin
Chinese Based on a New Open Benchmark Dataset [14.323478990713477]
中国語の多音不明瞭化のための99,000以上の文からなる新しいベンチマークデータセットを提案する。
私たちは、その上に単純なニューラルネットワークモデルをトレーニングし、既存のG2Pシステムよりも優れていることを見つけます。
論文 参考訳(メタデータ) (2020-04-07T05:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。