論文の概要: Mixed-Phoneme BERT: Improving BERT with Mixed Phoneme and Sup-Phoneme
Representations for Text to Speech
- arxiv url: http://arxiv.org/abs/2203.17190v1
- Date: Thu, 31 Mar 2022 17:12:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 18:30:38.947578
- Title: Mixed-Phoneme BERT: Improving BERT with Mixed Phoneme and Sup-Phoneme
Representations for Text to Speech
- Title(参考訳): mixed-phoneme bert:テキスト対音声のための混合音素とsup-phoneme表現によるbertの改善
- Authors: Guangyan Zhang, Kaitao Song, Xu Tan, Daxin Tan, Yuzi Yan, Yanqing Liu,
Gang Wang, Wei Zhou, Tao Qin, Tan Lee, Sheng Zhao
- Abstract要約: 学習能力を高めるために,音素と音素の混合表現を用いたBERTモデルの新たな変種であるMixedPhoneme BERTを提案する。
実験の結果,提案したMixed-Phoneme BERTは,FastSpeech 2ベースラインと比較して0.30CMOSゲインでTTS性能を著しく向上することがわかった。
- 参考スコア(独自算出の注目度): 104.65639892109381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, leveraging BERT pre-training to improve the phoneme encoder in text
to speech (TTS) has drawn increasing attention. However, the works apply
pre-training with character-based units to enhance the TTS phoneme encoder,
which is inconsistent with the TTS fine-tuning that takes phonemes as input.
Pre-training only with phonemes as input can alleviate the input mismatch but
lack the ability to model rich representations and semantic information due to
limited phoneme vocabulary. In this paper, we propose MixedPhoneme BERT, a
novel variant of the BERT model that uses mixed phoneme and sup-phoneme
representations to enhance the learning capability. Specifically, we merge the
adjacent phonemes into sup-phonemes and combine the phoneme sequence and the
merged sup-phoneme sequence as the model input, which can enhance the model
capacity to learn rich contextual representations. Experiment results
demonstrate that our proposed Mixed-Phoneme BERT significantly improves the TTS
performance with 0.30 CMOS gain compared with the FastSpeech 2 baseline. The
Mixed-Phoneme BERT achieves 3x inference speedup and similar voice quality to
the previous TTS pre-trained model PnG BERT
- Abstract(参考訳): 近年,テキスト・トゥ・スピーチ (TTS) における音素エンコーダの改良にBERT事前学習を利用することが注目されている。
しかし,音素を入力として利用するTTSファインタニングとは矛盾するTS音素エンコーダを強化するために,文字ベースユニットによる事前学習を適用する。
入力としての音素のみの事前学習は入力ミスマッチを緩和するが、限られた音素語彙による豊かな表現や意味情報をモデル化する能力は欠如している。
本稿では,音素表現と超音素表現を併用して学習能力を向上させるBERTモデルの新たな変種であるMixedPhoneme BERTを提案する。
具体的には、隣接する音素をsup音素にマージし、モデル入力として音素シーケンスとマージしたsup音素シーケンスを組み合わせることにより、リッチな文脈表現を学習するためのモデルのキャパシティを向上させることができる。
実験の結果,提案したMixed-Phoneme BERTは,FastSpeech 2ベースラインと比較して0.30CMOSゲインでTTS性能を著しく向上することがわかった。
Mixed-Phoneme BERTは、以前のTS事前学習モデルPnG BERTと3倍の推論速度と音声品質を実現する
関連論文リスト
- Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT [29.167336994990542]
クロス・ディレクト・テキスト・トゥ・スペーチ(CD-TTS)は、非ネイティブ方言における学習された話者の声を合成するタスクである。
本稿では,3つのサブモジュールからなる新しいTSモデルを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:40:27Z) - Controllable Emphasis with zero data for text-to-speech [57.12383531339368]
強調音声を簡易かつ効果的に処理する方法は、強調単語の予測持続時間を増加させることである。
これは自然度を7.3%向上させるスペクトログラム修正手法よりもはるかに優れていることを示し、基準女性のen-US音声に対して、文章中の強調された単語の正しさを40%精度で識別する。
論文 参考訳(メタデータ) (2023-07-13T21:06:23Z) - XPhoneBERT: A Pre-trained Multilingual Model for Phoneme Representations
for Text-to-Speech [15.254598796939922]
下流音声(TTS)タスクの音素表現を学習するために事前訓練された最初の多言語モデルXPhoneBERTを提案する。
私たちの XPhoneBERT は BERT-base と同じモデルアーキテクチャを持ち,約100言語および局所言語から330万音素レベルの文に対して,RoBERTa の事前学習アプローチを用いてトレーニングを行った。
論文 参考訳(メタデータ) (2023-05-31T10:05:33Z) - Phoneme-Level BERT for Enhanced Prosody of Text-to-Speech with Grapheme
Predictions [20.03948836281806]
そこで本研究では,正規なマスク付き音素予測とともに,対応する音素を予測するためのプレテキストタスクを備えた音素レベルBERT(PL-BERT)を提案する。
主観評価の結果,音素レベルBERTエンコーダは,合成音声の自然な評価値の平均スコア(MOS)を大幅に改善した。
論文 参考訳(メタデータ) (2023-01-20T21:36:16Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - PnG BERT: Augmented BERT on Phonemes and Graphemes for Neural TTS [27.20479869682578]
PnG BERTはニューラルTSのための新しいエンコーダモデルである。
大規模テキストコーパス上で、自己管理的な方法で事前訓練することができる。
論文 参考訳(メタデータ) (2021-03-28T06:24:00Z) - Learning Speaker Embedding from Text-to-Speech [59.80309164404974]
我々は,エンドツーエンドのTacotron 2 TTSと話者埋め込みネットワークを,自己指導型で共同で訓練した。
本研究は,手書き文字とASR書き起こし文字のトレーニングについて検討した。
教師なしTS埋め込みは、LibriTTSデータセットのi-vectorに関して、EERを2.06%改善した。
論文 参考訳(メタデータ) (2020-10-21T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。