論文の概要: Alternate Endings: Improving Prosody for Incremental Neural TTS with
Predicted Future Text Input
- arxiv url: http://arxiv.org/abs/2102.09914v1
- Date: Fri, 19 Feb 2021 13:11:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 21:34:16.655784
- Title: Alternate Endings: Improving Prosody for Incremental Neural TTS with
Predicted Future Text Input
- Title(参考訳): 代替語尾:将来のテキスト入力予測によるインクリメンタルニューラルネットワークttsの韻律改善
- Authors: Brooke Stephenson, Thomas Hueber, Laurent Girin, Laurent Besacier
- Abstract要約: インクリメンタルなテキストから音声への合成では、フルコンテキストはしばしば未知であり、自然性を失う可能性がある。
a)未知(ゼロワード)、(b)言語モデル予測、(c)ランダム予測、(d)接地構造など、次の単語のテスト条件を比較した。
予測されたテキストは、ゼロワードルックアヘッドよりも大幅に改善されているが、ランダムワードルックアヘッドよりもわずかに改善されている。
- 参考スコア(独自算出の注目度): 27.688471304056417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prosody of a spoken word is determined by its surrounding context. In
incremental text-to-speech synthesis, where the synthesizer produces an output
before it has access to the complete input, the full context is often unknown
which can result in a loss of naturalness in the synthesized speech. In this
paper, we investigate whether the use of predicted future text can attenuate
this loss. We compare several test conditions of next future word: (a) unknown
(zero-word), (b) language model predicted, (c) randomly predicted and (d)
ground-truth. We measure the prosodic features (pitch, energy and duration) and
find that predicted text provides significant improvements over a zero-word
lookahead, but only slight gains over random-word lookahead. We confirm these
results with a perceptive test.
- Abstract(参考訳): 話し言葉の韻律はその周囲の文脈によって決定される。
インクリメンタルテキスト音声合成では、合成者が完全な入力にアクセスする前に出力を生成するが、完全な文脈はしばしば不明であり、合成された音声の自然性が失われる。
本論文では,予測される将来のテキストの使用が,この損失を緩和するかどうかを検討する。
a)未知(ゼロワード)、(b)言語モデル予測、(c)ランダム予測、(d)接地構造など、次の単語のテスト条件を比較した。
我々は, 韻律的特徴(ピッチ, エネルギー, 持続時間)を測定し, 予測されたテキストはゼロワードのルックアヘッドよりも大幅に向上するが, ランダムワードのルックアヘッドよりもわずかに向上する。
これらの結果は知覚テストで確認する。
関連論文リスト
- Leading Whitespaces of Language Models' Subword Vocabulary Pose a Confound for Calculating Word Probabilities [15.073507986272027]
我々は、単語の確率を単語の確率に集約する最も一般的な方法によって生じる欠点を論じる。
これは、ほとんどの言語モデルのサブワード語彙のトークンが主要な空白を持つという事実による。
後続する白色空間の確率を現在の単語の確率に再計算する簡単な復号法を提案する。
論文 参考訳(メタデータ) (2024-06-16T08:44:56Z) - Language Model is a Branch Predictor for Simultaneous Machine
Translation [73.82754138171587]
翻訳遅延を低減するため,SiMTタスクに分岐予測手法を組み込むことを提案する。
言語モデルを分岐予測器として利用し,潜在的な分岐方向を予測する。
実際のソース語が予測されたソース語から逸脱すると、実際のソース語を使用して出力を復号し、予測された出力を置き換える。
論文 参考訳(メタデータ) (2023-12-22T07:32:47Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - BERT, can HE predict contrastive focus? Predicting and controlling
prominence in neural TTS using a language model [29.188684861193092]
コントラスト焦点を含む発話に基づいて,音質特性の定量化を図ったBERTモデルの精度を評価する。
また,音響的特徴に基づくTSモデルにおける代名詞長の制御性についても検討した。
論文 参考訳(メタデータ) (2022-07-04T20:43:41Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Exploring BERT's Sensitivity to Lexical Cues using Tests from Semantic
Priming [8.08493736237816]
本研究は, セマンティックプライミング(セマンティックプライミング)を用いて, 事前学習したBERTモデルを解析するケーススタディである。
BERTもまた「価格」を示し、文脈が関連語を含む場合と非関連語を含む場合の確率がより大きいことを予測している。
フォローアップ分析では、コンテキストがより情報的になるにつれて、BERTは関連した素語に気を散らす傾向にある。
論文 参考訳(メタデータ) (2020-10-06T20:30:59Z) - What the Future Brings: Investigating the Impact of Lookahead for
Incremental Neural TTS [29.188684861193092]
本研究では,インクリメンタルモードで使用した場合のTTSシステムの動作について検討する。
まず、この増分ポリシーがk の異なる値に対するトークン n のエンコーダ表現の進化に与える影響を解析する。
論文 参考訳(メタデータ) (2020-09-04T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。