論文の概要: Investigation of learning abilities on linguistic features in
sequence-to-sequence text-to-speech synthesis
- arxiv url: http://arxiv.org/abs/2005.10390v2
- Date: Wed, 7 Oct 2020 04:18:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 04:37:45.527078
- Title: Investigation of learning abilities on linguistic features in
sequence-to-sequence text-to-speech synthesis
- Title(参考訳): 逐次音声合成における言語的特徴の学習能力の検討
- Authors: Yusuke Yasuda, Xin Wang, Junichi Yamagishi
- Abstract要約: ニューラルシークエンス・ツー・シークエンス・テキスト・トゥ・音声合成(TTS)は、テキストや音素のような単純な言語的特徴から直接高品質な音声を生成することができる。
ニューラルシークエンス・ツー・シークエンス TTS が日本語と英語でどのように機能するかを考察する。
- 参考スコア(独自算出の注目度): 48.151894340550385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural sequence-to-sequence text-to-speech synthesis (TTS) can produce
high-quality speech directly from text or simple linguistic features such as
phonemes. Unlike traditional pipeline TTS, the neural sequence-to-sequence TTS
does not require manually annotated and complicated linguistic features such as
part-of-speech tags and syntactic structures for system training. However, it
must be carefully designed and well optimized so that it can implicitly extract
useful linguistic features from the input features. In this paper we
investigate under what conditions the neural sequence-to-sequence TTS can work
well in Japanese and English along with comparisons with deep neural network
(DNN) based pipeline TTS systems. Unlike past comparative studies, the pipeline
systems also use autoregressive probabilistic modeling and a neural vocoder. We
investigated systems from three aspects: a) model architecture, b) model
parameter size, and c) language. For the model architecture aspect, we adopt
modified Tacotron systems that we previously proposed and their variants using
an encoder from Tacotron or Tacotron2. For the model parameter size aspect, we
investigate two model parameter sizes. For the language aspect, we conduct
listening tests in both Japanese and English to see if our findings can be
generalized across languages. Our experiments suggest that a) a neural
sequence-to-sequence TTS system should have a sufficient number of model
parameters to produce high quality speech, b) it should also use a powerful
encoder when it takes characters as inputs, and c) the encoder still has a room
for improvement and needs to have an improved architecture to learn
supra-segmental features more appropriately.
- Abstract(参考訳): tts(neural sequence-to-sequence text-to-speech synthesis)は、テキストから直接高品質な音声を生成することができる。
従来のパイプラインRTSとは異なり、ニューラルシークエンス・ツー・シークエンス・TSは、手動で注釈付けされた複雑な言語機能を必要としない。
しかし、入力特徴から有用な言語的特徴を暗黙的に抽出できるように、慎重に設計し、適切に最適化する必要がある。
本稿では,ニューラルシークエンス・ツー・シークエンス TTS が日本語と英語でどのように機能するかを,ディープニューラルネットワーク(DNN)ベースのパイプライン TTS システムとの比較で検討する。
過去の比較研究とは異なり、パイプラインシステムは自己回帰確率モデリングと神経ボコーダも使用している。
我々は3つの側面からシステムを調査した。
a) モデルアーキテクチャ
b) モデルパラメータのサイズ、及び
c) 言語。
モデルアーキテクチャの面では,これまで提案してきた改良型タコトロンシステムと,タコトロンやタコトロン2のエンコーダを用いた変種を採用した。
モデルパラメータサイズについては,2つのモデルパラメータサイズについて検討する。
言語面では、日本語と英語の両方で聴力テストを実施し、我々の発見が言語間で一般化できるかどうかを確かめる。
私たちの実験は
a) TTSシステムは、高品質な音声を生成するのに十分な数のモデルパラメータを持つべきである。
b) 文字を入力とする場合には,強力なエンコーダを使用する必要がある。
c) エンコーダには改善の余地が残っており、上段の機能をより適切に学習するための改良されたアーキテクチャが必要である。
関連論文リスト
- On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition [31.58289343561422]
合成データ生成の範囲内で, 5種類のTSデコーダアーキテクチャを比較し, CTCに基づく音声認識学習への影響を示す。
データ生成における自己回帰復号法は,非自己回帰復号法よりも優れており,TTS一般化能力を定量化するためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-31T09:37:27Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - OverFlow: Putting flows on top of neural transducers for better TTS [9.346907121576258]
ニューラルHMMは、最近テキストから音声へのシーケンスモデリングのために提案されたニューラルトランスデューサの一種である。
本稿では,ニューラルHMM TTSと正規化流を組み合わせた音声音響の非ガウス分布を記述する。
論文 参考訳(メタデータ) (2022-11-13T12:53:05Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Cascade RNN-Transducer: Syllable Based Streaming On-device Mandarin
Speech Recognition with a Syllable-to-Character Converter [10.262490936452688]
本稿では,RNN-Tの言語モデリング能力を向上させるために,新しいカスケードRNN-T手法を提案する。
いくつかの重要なトリックを導入することで、カスケードRNN-Tアプローチは、いくつかのマンダリンテストセットにおいて、文字ベースのRNN-Tを大きなマージンで上回る。
論文 参考訳(メタデータ) (2020-11-17T06:42:47Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。