論文の概要: Investigation of Japanese PnG BERT language model in text-to-speech
synthesis for pitch accent language
- arxiv url: http://arxiv.org/abs/2212.08321v1
- Date: Fri, 16 Dec 2022 07:47:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 15:48:00.847964
- Title: Investigation of Japanese PnG BERT language model in text-to-speech
synthesis for pitch accent language
- Title(参考訳): ピッチアクセント音声合成における日本語PnG BERT言語モデルの検討
- Authors: Yusuke Yasuda, Tomoki Toda
- Abstract要約: PnGBERTは文字領域と音素領域における自己教師付き事前学習モデルであり、エンドツーエンドのテキスト音声合成(TTS)に使用される。
PnGBERTが捉えた特徴が日本語TTSに与える影響を,ピッチアクセントの推測に役立つ条件を決定するために微調整条件を変更して検討した。
実験の結果,プレトレーニングにより得られたPnGBERTの特徴はピッチアクセントの推測に役立つ情報を含んでおり,PnGBERTは聴取試験においてアクセントの正確さでベースラインのTacotronより優れていた。
- 参考スコア(独自算出の注目度): 35.27180572719508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end text-to-speech synthesis (TTS) can generate highly natural
synthetic speech from raw text. However, rendering the correct pitch accents is
still a challenging problem for end-to-end TTS. To tackle the challenge of
rendering correct pitch accent in Japanese end-to-end TTS, we adopt PnG~BERT, a
self-supervised pretrained model in the character and phoneme domain for TTS.
We investigate the effects of features captured by PnG~BERT on Japanese TTS by
modifying the fine-tuning condition to determine the conditions helpful
inferring pitch accents. We manipulate content of PnG~BERT features from being
text-oriented to speech-oriented by changing the number of fine-tuned layers
during TTS. In addition, we teach PnG~BERT pitch accent information by
fine-tuning with tone prediction as an additional downstream task. Our
experimental results show that the features of PnG~BERT captured by pretraining
contain information helpful inferring pitch accent, and PnG~BERT outperforms
baseline Tacotron on accent correctness in a listening test.
- Abstract(参考訳): エンドツーエンドのテキスト音声合成(TTS)は、生テキストから非常に自然な合成音声を生成することができる。
しかし、正しいピッチアクセントのレンダリングは、エンド・ツー・エンドのTSにとって依然として難しい問題である。
日本語の終末TSにおいて正しいピッチアクセントを描画する課題に対処するために、文字と音素領域における自己教師付き事前学習モデルであるPnG~BERTを採用する。
PnG~BERTが捉えた特徴が日本語TTSに与える影響を,ピッチアクセントの推測に役立つ条件を決定するために微調整条件を変更して検討した。
我々は,テキスト指向から音声指向へのPnG~BERT機能の内容の操作を行う。
さらに、音調予測を付加的なダウンストリームタスクとして微調整することで、PnG~BERTピッチアクセント情報を教える。
実験の結果,プレトレーニングにより得られたPnG~BERTの特徴はピッチアクセントの推測に役立つ情報を含み,PnG~BERTは聴取試験においてアクセントの正確さでベースラインのTacotronより優れていた。
関連論文リスト
- Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT [29.167336994990542]
クロス・ディレクト・テキスト・トゥ・スペーチ(CD-TTS)は、非ネイティブ方言における学習された話者の声を合成するタスクである。
本稿では,3つのサブモジュールからなる新しいTSモデルを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:40:27Z) - Controllable Emphasis with zero data for text-to-speech [57.12383531339368]
強調音声を簡易かつ効果的に処理する方法は、強調単語の予測持続時間を増加させることである。
これは自然度を7.3%向上させるスペクトログラム修正手法よりもはるかに優れていることを示し、基準女性のen-US音声に対して、文章中の強調された単語の正しさを40%精度で識別する。
論文 参考訳(メタデータ) (2023-07-13T21:06:23Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Phoneme-Level BERT for Enhanced Prosody of Text-to-Speech with Grapheme
Predictions [20.03948836281806]
そこで本研究では,正規なマスク付き音素予測とともに,対応する音素を予測するためのプレテキストタスクを備えた音素レベルBERT(PL-BERT)を提案する。
主観評価の結果,音素レベルBERTエンコーダは,合成音声の自然な評価値の平均スコア(MOS)を大幅に改善した。
論文 参考訳(メタデータ) (2023-01-20T21:36:16Z) - Arabic Text-To-Speech (TTS) Data Preparation [0.0]
Text-to-Speech (TTS)は、TSモジュールの結果に大きな影響を与える可能性があるため、記録データに大きく依存する。
品質と振舞いを考慮した異なる記録方法もまた、モジュールの開発において有利である。
本研究の目的は, 自然性, 知性, 理解の両面での音声システムの進化に, 地道的発話がどのような影響を及ぼすかを明らかにすることである。
論文 参考訳(メタデータ) (2022-04-07T06:58:03Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - Incremental Speech Synthesis For Speech-To-Speech Translation [23.951060578077445]
本稿では,TSモデルの逐次合成性能の向上に焦点をあてる。
プレフィックスに基づく単純なデータ拡張戦略により、インクリメンタルTS品質を改善してオフラインパフォーマンスにアプローチすることが可能になります。
本稿では,S2STアプリケーションに適したレイテンシメトリクスを提案し,このコンテキストにおける遅延低減手法について検討する。
論文 参考訳(メタデータ) (2021-10-15T17:20:28Z) - AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。
AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文 参考訳(メタデータ) (2021-07-06T10:40:45Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。