論文の概要: PnG BERT: Augmented BERT on Phonemes and Graphemes for Neural TTS
- arxiv url: http://arxiv.org/abs/2103.15060v1
- Date: Sun, 28 Mar 2021 06:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 14:44:05.895757
- Title: PnG BERT: Augmented BERT on Phonemes and Graphemes for Neural TTS
- Title(参考訳): PnG BERT:Augmented BERT on Phonemes and Graphemes for Neural TTS
- Authors: Ye Jia, Heiga Zen, Jonathan Shen, Yu Zhang, Yonghui Wu
- Abstract要約: PnG BERTはニューラルTSのための新しいエンコーダモデルである。
大規模テキストコーパス上で、自己管理的な方法で事前訓練することができる。
- 参考スコア(独自算出の注目度): 27.20479869682578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces PnG BERT, a new encoder model for neural TTS. This
model is augmented from the original BERT model, by taking both phoneme and
grapheme representations of text as input, as well as the word-level alignment
between them. It can be pre-trained on a large text corpus in a self-supervised
manner, and fine-tuned in a TTS task. Experimental results show that a neural
TTS model using a pre-trained PnG BERT as its encoder yields more natural
prosody and more accurate pronunciation than a baseline model using only
phoneme input with no pre-training. Subjective side-by-side preference
evaluations show that raters have no statistically significant preference
between the speech synthesized using a PnG BERT and ground truth recordings
from professional speakers.
- Abstract(参考訳): 本稿では,ニューラルTSの新しいエンコーダモデルであるPnG BERTを紹介する。
このモデルは元のBERTモデルから拡張され、テキストの音素表現と音素表現の両方を入力とし、単語レベルのアライメントを行う。
大規模テキストコーパス上で自己教師型で事前訓練し、TSタスクで微調整することができる。
実験結果から,事前学習したPnG BERTをエンコーダとして使用するニューラルTSモデルは,事前学習のない音素入力のみを用いたベースラインモデルよりも自然な韻律と精度の高い発音が得られることがわかった。
PnG BERTを用いて合成した音声とプロの話者の真実記録との間に統計的に有意な嗜好がないことを示す。
関連論文リスト
- Unsupervised Pre-Training For Data-Efficient Text-to-Speech On Low
Resource Languages [15.32264927462068]
そこで本研究では,大容量の非転写音声データを利用したシーケンス・ツー・シーケンスTSモデルの教師なし事前学習手法を提案する。
主なアイデアは、歪んだものから切り離されたメル・スペクトログラムを再構築するモデルを事前訓練することである。
低リソース言語シナリオにおける提案手法の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-03-28T01:26:00Z) - Phoneme-Level BERT for Enhanced Prosody of Text-to-Speech with Grapheme
Predictions [20.03948836281806]
そこで本研究では,正規なマスク付き音素予測とともに,対応する音素を予測するためのプレテキストタスクを備えた音素レベルBERT(PL-BERT)を提案する。
主観評価の結果,音素レベルBERTエンコーダは,合成音声の自然な評価値の平均スコア(MOS)を大幅に改善した。
論文 参考訳(メタデータ) (2023-01-20T21:36:16Z) - Thutmose Tagger: Single-pass neural model for Inverse Text Normalization [76.87664008338317]
逆テキスト正規化(ITN)は自動音声認識において重要な後処理ステップである。
本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。
タグと入力語との1対1対応により、モデルの予測の解釈性が向上する。
論文 参考訳(メタデータ) (2022-07-29T20:39:02Z) - The Topological BERT: Transforming Attention into Topology for Natural
Language Processing [0.0]
本稿では,トポロジカルデータ解析を用いたテキスト分類器を提案する。
我々は、その分類器への唯一の入力として、BERTのアテンションマップをアテンショングラフに変換する。
このモデルは、スパムとハムメッセージの区別、文が文法的に正しいかどうかの認識、あるいは映画レビューを否定的あるいは肯定的な評価といったタスクを解くことができる。
論文 参考訳(メタデータ) (2022-06-30T11:25:31Z) - Automatic Prosody Annotation with Pre-Trained Text-Speech Model [48.47706377700962]
本稿では,事前学習した音声エンコーダを用いたニューラルテキスト音声モデルを用いて,テキストオーディオデータから韻律境界ラベルを自動的に抽出する。
このモデルは、テキストデータと音声データに個別に事前訓練され、TTSデータを三重奏形式(音声、テキスト、韻律)で微調整する。
論文 参考訳(メタデータ) (2022-06-16T06:54:16Z) - Neural Grapheme-to-Phoneme Conversion with Pre-trained Grapheme Models [35.60380484684335]
本稿では,Grapheme BERT (GBERT) と呼ばれる事前学習型Graphemeモデルを提案する。
GBERTは、グラフ情報しか持たない大きな言語固有の単語リスト上で、自己教師型トレーニングによって構築される。
GBERTを最先端のTransformerベースのG2Pモデルに組み込むための2つのアプローチが開発されている。
論文 参考訳(メタデータ) (2022-01-26T02:49:56Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Unified Mandarin TTS Front-end Based on Distilled BERT Model [5.103126953298633]
TTSフロントエンドにおける2つの重要なタスクに対処するために,プレトレーニング言語モデル(PLM)に基づくモデルを提案する。
トレーニング済みの中国語BERTをテキストエンコーダとして使用し、マルチタスク学習技術を用いて2つのTSフロントエンドタスクに適応する。
TTSフロントエンドモジュール全体を軽量で統一された方法で実行することができ、モバイルデバイスへの展開により友好的です。
論文 参考訳(メタデータ) (2020-12-31T02:34:57Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。
我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-02-17T08:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。