論文の概要: Flavored Tacotron: Conditional Learning for Prosodic-linguistic Features
- arxiv url: http://arxiv.org/abs/2104.04050v1
- Date: Thu, 8 Apr 2021 20:50:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 14:11:16.218126
- Title: Flavored Tacotron: Conditional Learning for Prosodic-linguistic Features
- Title(参考訳): 味付けタコトロン : 韻律言語的特徴の条件付き学習
- Authors: Mahsa Elyasi, Gaurav Bharaj
- Abstract要約: ストレス音節とピッチアクセントの2つの基本的な韻律的特徴から,Tacotron-2をコンディショニングする戦略を提案する。
本研究では,プリエンコーダとイントラデコーダの段階での協調条件が自然合成音声に結びつくことを示した。
- 参考スコア(独自算出の注目度): 1.6286844497313562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural sequence-to-sequence text-to-speech synthesis (TTS), such as
Tacotron-2, transforms text into high-quality speech. However, generating
speech with natural prosody still remains a challenge. Yasuda et. al. show that
unlike natural speech, Tacotron-2's encoder doesn't fully represent prosodic
features (e.g. syllable stress in English) from characters, and result in flat
fundamental frequency variations.
In this work, we propose a novel carefully designed strategy for conditioning
Tacotron-2 on two fundamental prosodic features in English -- stress syllable
and pitch accent, that help achieve more natural prosody. To this end, we use
of a classifier to learn these features in an end-to-end fashion, and apply
feature conditioning at three parts of Tacotron-2's Text-To-Mel Spectrogram:
pre-encoder, post-encoder, and intra-decoder. Further, we show that jointly
conditioned features at pre-encoder and intra-decoder stages result in
prosodically natural synthesized speech (vs. Tacotron-2), and allows the model
to produce speech with more accurate pitch accent and stress patterns.
Quantitative evaluations show that our formulation achieves higher
fundamental frequency contour correlation, and lower Mel Cepstral Distortion
measure between synthesized and natural speech. And subjective evaluation shows
that the proposed method's Mean Opinion Score of 4.14 fairs higher than
baseline Tacotron-2, 3.91, when compared against natural speech (LJSpeech
corpus), 4.28.
- Abstract(参考訳): tacotron-2のようなtts(neural sequence-to-sequence text-to-speech synthesis)は、テキストを高品質な音声に変換する。
しかし、自然韻律による音声生成は依然として課題である。
安田ら。
アル
自然言語とは異なり、Tacotron-2のエンコーダは韻律的特徴(例)を完全に表現していない。
英語では音節の強勢)は文字から始まり、フラットな基本周波数の変化をもたらす。
本研究では,より自然な韻律を実現するために,英語の2つの基本韻律的特徴であるストレス音節とピッチアクセントにTacotron-2を調和させる手法を提案する。
この目的のために、分類器を用いて、これらの特徴をエンドツーエンドで学習し、Tacotron-2のText-To-Mel Spectrogram(pre-encoder, post-encoder, in-decoder)の3つの部分に特徴条件を適用する。
さらに,プリエンコーダ段階とイントラデコーダ段階における協調的な特徴により,韻律的自然合成音声(vs. tacotron-2)が生成され,より正確なピッチアクセントとストレスパターンを持つ音声が生成できることを示した。
定量的評価の結果,合成音声と自然音声の間には,高い基本周波数パターン相関と低いメルケプストラム歪み測度が得られることがわかった。
主観評価の結果,提案手法の平均評価スコアは,自然発話(ljspeechコーパス)4.28に対して,タコトロン-2,3.91よりも4.14フェア高い値を示した。
関連論文リスト
- NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models [127.47252277138708]
ゼロショット方式で自然な音声を生成するために,分解拡散モデルを備えたTSSシステムであるNaturalSpeech 3を提案する。
具体的には、分解ベクトル量子化(FVQ)を用いて、音声波形をコンテンツ、韻律、音色、音響的詳細の部分空間に分解する。
実験により、NaturalSpeech 3は、品質、類似性、韻律、知性において最先端のTSSシステムより優れていることが示された。
論文 参考訳(メタデータ) (2024-03-05T16:35:25Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - Zero-Shot Long-Form Voice Cloning with Dynamic Convolution Attention [0.0]
本稿では,数秒間の参照音声からターゲット音声を再生可能な,注意に基づく音声合成システムを提案する。
長期発話への一般化は、ダイナミック・コンボリューション・アテンション(Dynamic Convolution Attention)と呼ばれるエネルギーベースのアテンション機構を用いて実現される。
音声の自然性、話者の類似性、アライメントの整合性、長い発話を合成する能力などの観点から、音声クローニングシステムの実装を比較した。
論文 参考訳(メタデータ) (2022-01-25T15:06:07Z) - Emphasis control for parallel neural TTS [8.039245267912511]
音声信号によって伝達される意味情報は、韻律の局所的な変化に強く影響される。
近年のパラレル・ニューラルテキスト・トゥ・音声(TTS)法は,高性能を維持しつつ高い忠実度で音声を生成することができる。
本稿では,重心変化に対応する潜在空間を学習することにより,韻律強調制御のための階層型並列型ニューラルネットワークTSシステムを提案する。
論文 参考訳(メタデータ) (2021-10-06T18:45:39Z) - Using previous acoustic context to improve Text-to-Speech synthesis [30.885417054452905]
我々は,従来の発話音声の埋め込みを生成する音響コンテキストエンコーダを用いて,データのシーケンシャルな性質を活用する。
2つの二次タスクを比較する:発話ペアの順序の予測と、現在の発話音声の埋め込みの予測。
論文 参考訳(メタデータ) (2020-12-07T15:00:18Z) - Controllable neural text-to-speech synthesis using intuitive prosodic
features [3.709803838880226]
音響音声の特徴に基づくシーケンス・ツー・シーケンスニューラルネットワークを訓練し、直感的かつ有意義な次元を持つ潜在韻律空間を学習する。
実験により, 音程, ピッチ範囲, 持続時間, エネルギー, スペクトル傾きのモデルが各韻律次元を効果的に制御し, 多様な発話スタイルを生成できることが示唆された。
論文 参考訳(メタデータ) (2020-09-14T22:37:44Z) - Modeling Prosodic Phrasing with Multi-Task Learning in Tacotron-based
TTS [74.11899135025503]
本稿では,Tacotronに基づく音声合成フレームワークを拡張し,韻律句のブレークを明示的にモデル化する。
提案手法は中国語とモンゴル語の両方の音質を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。