論文の概要: Prosodic Representation Learning and Contextual Sampling for Neural
Text-to-Speech
- arxiv url: http://arxiv.org/abs/2011.02252v1
- Date: Wed, 4 Nov 2020 12:20:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:48:56.237448
- Title: Prosodic Representation Learning and Contextual Sampling for Neural
Text-to-Speech
- Title(参考訳): ニューラルテキスト音声の韻律表現学習と文脈サンプリング
- Authors: Sri Karlapati, Ammar Abbas, Zack Hodari, Alexis Moinet, Arnaud Joly,
Penny Karanasou, Thomas Drugman
- Abstract要約: 本稿では,ニューラル音声合成のための新たな2段階トレーニングプロセスで訓練されたモデルであるKathakaを紹介する。
文章レベルでの韻律分布は,訓練中に利用可能なメル・スペクトログラムから学習する。
第二段階では,テキストで利用可能な文脈情報を用いて,この学習した韻律分布をサンプリングする新しい手法を提案する。
- 参考スコア(独自算出の注目度): 16.45773135100367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce Kathaka, a model trained with a novel two-stage
training process for neural speech synthesis with contextually appropriate
prosody. In Stage I, we learn a prosodic distribution at the sentence level
from mel-spectrograms available during training. In Stage II, we propose a
novel method to sample from this learnt prosodic distribution using the
contextual information available in text. To do this, we use BERT on text, and
graph-attention networks on parse trees extracted from text. We show a
statistically significant relative improvement of $13.2\%$ in naturalness over
a strong baseline when compared to recordings. We also conduct an ablation
study on variations of our sampling technique, and show a statistically
significant improvement over the baseline in each case.
- Abstract(参考訳): 本稿では,文脈的に適切な韻律を持つニューラル音声合成のための新しい2段階学習プロセスで訓練されたモデルであるkathakaを提案する。
I期では,訓練中に利用可能なメルスペクトルから文レベルで韻律分布を学習する。
第二段階では,テキストで利用可能な文脈情報を用いて学習韻律分布をサンプル化する新しい手法を提案する。
これを実現するために,テキストにBERT,テキストから抽出した構文木にグラフアテンションネットワークを用いる。
統計的に有意な相対的改善は、記録と比較して強いベースラインよりも自然性が13.2\%高い。
また,サンプリング手法のバリエーションに関するアブレーション調査を行い,各症例の基準値に対して統計的に有意な改善を示した。
関連論文リスト
- Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Adversarial Capsule Networks for Romanian Satire Detection and Sentiment
Analysis [0.13048920509133807]
サファイア検出と感情分析は、自然言語処理タスクを集中的に探求している。
研究資源が少ない言語では、文字レベルの逆数過程に基づく人工的な例を生成する方法がある。
本研究では, よく知られたNLPモデルの改良を行い, 対角訓練とカプセルネットワークについて検討する。
提案したフレームワークは2つのタスクの既存の手法より優れており、99.08%の精度が達成されている。
論文 参考訳(メタデータ) (2023-06-13T15:23:44Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Prompt-based Learning for Text Readability Assessment [0.4757470449749875]
可読性評価のための事前学習されたSeq2seqモデルの新規適応を提案する。
与えられた2つのテキストからより難しいテキストを区別するために、Seq2seqモデルを適用できることを実証する。
論文 参考訳(メタデータ) (2023-02-25T18:39:59Z) - NapSS: Paragraph-level Medical Text Simplification via Narrative
Prompting and Sentence-matching Summarization [46.772517928718216]
そこで我々はNapSSと呼ばれる2段階戦略を提案する。
NapSSは、オリジナルの物語の流れが保存されていることを保証しながら、関連コンテンツを特定し、単純化する。
本モデルは,英語医療コーパスのSeq2seqベースラインよりも有意に優れている。
論文 参考訳(メタデータ) (2023-02-11T02:20:25Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - On Sampling-Based Training Criteria for Neural Language Modeling [97.35284042981675]
我々はモンテカルロサンプリング、重要サンプリング、補償部分和と呼ばれる新しい方法、およびノイズコントラスト推定を検討する。
対象のクラス後部確率を補正しさえすれば,これらすべてのサンプリング手法が同等に動作可能であることを示す。
Switchboard と LibriSpeech における言語モデリングと音声認識の実験結果が,我々の主張を支持した。
論文 参考訳(メタデータ) (2021-04-21T12:55:52Z) - Neural Data-to-Text Generation with LM-based Text Augmentation [27.822282190362856]
弱教師付きトレーニングパラダイムは10%未満のアノテーションで完全に教師付きセq2seqモデルより優れていることを示す。
すべての注釈付きデータを利用することで、標準のSeq2seqモデルの性能を5 BLEUポイント以上向上させることができる。
論文 参考訳(メタデータ) (2021-02-06T10:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。