論文の概要: What the Future Brings: Investigating the Impact of Lookahead for
Incremental Neural TTS
- arxiv url: http://arxiv.org/abs/2009.02035v1
- Date: Fri, 4 Sep 2020 07:30:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 02:18:56.793191
- Title: What the Future Brings: Investigating the Impact of Lookahead for
Incremental Neural TTS
- Title(参考訳): 未来がもたらしたもの - インクリメンタル神経ttにおけるlookaheadの影響調査
- Authors: Brooke Stephenson, Laurent Besacier, Laurent Girin, Thomas Hueber
- Abstract要約: 本研究では,インクリメンタルモードで使用した場合のTTSシステムの動作について検討する。
まず、この増分ポリシーがk の異なる値に対するトークン n のエンコーダ表現の進化に与える影響を解析する。
- 参考スコア(独自算出の注目度): 29.188684861193092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In incremental text to speech synthesis (iTTS), the synthesizer produces an
audio output before it has access to the entire input sentence. In this paper,
we study the behavior of a neural sequence-to-sequence TTS system when used in
an incremental mode, i.e. when generating speech output for token n, the system
has access to n + k tokens from the text sequence. We first analyze the impact
of this incremental policy on the evolution of the encoder representations of
token n for different values of k (the lookahead parameter). The results show
that, on average, tokens travel 88% of the way to their full context
representation with a one-word lookahead and 94% after 2 words. We then
investigate which text features are the most influential on the evolution
towards the final representation using a random forest analysis. The results
show that the most salient factors are related to token length. We finally
evaluate the effects of lookahead k at the decoder level, using a MUSHRA
listening test. This test shows results that contrast with the above high
figures: speech synthesis quality obtained with 2 word-lookahead is
significantly lower than the one obtained with the full sentence.
- Abstract(参考訳): インクリメンタルテキストから音声合成(iTTS)では、合成器は入力文全体にアクセスする前に音声出力を生成する。
本稿では, 逐次的モード, すなわちトークンnの音声出力を生成するとき, テキストシーケンスからn+kトークンにアクセスする場合の, ニューラルシーケンス・ツー・シーケンスTSシステムの動作について検討する。
まず,k の異なる値に対するトークン n のエンコーダ表現の進化に対するこの漸進的ポリシーの影響を解析する(ルックアヘッドパラメータ)。
その結果,平均するとトークンの88%が1ワードのルックアヘッドで,94%が2単語の後に表示されることがわかった。
次に,ランダムフォレスト分析を用いて,最終表現への進化に最も影響を及ぼすテキスト特徴について検討する。
その結果,最も顕著な因子はトークン長と関連していることがわかった。
MUSHRAリスニングテストを用いて,Lookahead kがデコーダレベルに与える影響を最終的に評価した。
本試験は,2ワードの頭文字で得られた音声合成品質が,全文で得られた音声よりも有意に低いことを示す。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - Context-Sensitive Visualization of Deep Learning Natural Language
Processing Models [9.694190108703229]
そこで我々は,新しいNLP変換器のコンテキスト依存可視化手法を提案する。
アウトプットに最も影響を与えるトークン(単語)の最も重要なグループを見つけます。
最も影響力のある単語の組み合わせはヒートマップで視覚化される。
論文 参考訳(メタデータ) (2021-05-25T20:26:38Z) - Alternate Endings: Improving Prosody for Incremental Neural TTS with
Predicted Future Text Input [27.688471304056417]
インクリメンタルなテキストから音声への合成では、フルコンテキストはしばしば未知であり、自然性を失う可能性がある。
a)未知(ゼロワード)、(b)言語モデル予測、(c)ランダム予測、(d)接地構造など、次の単語のテスト条件を比較した。
予測されたテキストは、ゼロワードルックアヘッドよりも大幅に改善されているが、ランダムワードルックアヘッドよりもわずかに改善されている。
論文 参考訳(メタデータ) (2021-02-19T13:11:34Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Multimodal Punctuation Prediction with Contextual Dropout [3.0294344089697596]
まず,iwslt 2012 tedタスクの8%改善を実現する,句読点予測のためのトランスフォーマティブベースの手法を提案する。
次に、テキストとオーディオの両方から学習するマルチモーダルモデルを記述し、内部データセット上のテキストのみのアルゴリズムよりも8%改善する。
論文 参考訳(メタデータ) (2021-02-12T22:15:30Z) - A Comparison of Discrete Latent Variable Models for Speech
Representation Learning [46.52258734975676]
本稿では,入力信号の予測や自動符号化に基づく2つのアプローチの比較を行う。
結果,vq-wav2vecによる将来の時間ステップ予測により,性能が向上することが示された。
論文 参考訳(メタデータ) (2020-10-24T01:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。