論文の概要: Prosodic Clustering for Phoneme-level Prosody Control in End-to-End
Speech Synthesis
- arxiv url: http://arxiv.org/abs/2111.10177v1
- Date: Fri, 19 Nov 2021 12:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 16:12:33.786792
- Title: Prosodic Clustering for Phoneme-level Prosody Control in End-to-End
Speech Synthesis
- Title(参考訳): エンドツーエンド音声合成における音素レベル韻律制御のための韻律クラスタリング
- Authors: Alexandra Vioni, Myrsini Christidou, Nikolaos Ellinas, Georgios
Vamvoukakis, Panos Kakoulidis, Taehoon Kim, June Sig Sung, Hyoungmin Park,
Aimilios Chalamandaris, Pirros Tsiakoulis
- Abstract要約: 本稿では,自己回帰的注意に基づく音声合成システムにおいて,音素レベルでの韻律制御手法を提案する。
提案手法は、F0と持続時間の音素レベル制御を可能とし、生成した音声の品質を維持する。
F0クラスタのセントロイドを音符に置き換えることで、モデルはスピーカーの範囲内で音符とオクターブを制御できる。
- 参考スコア(独自算出の注目度): 49.6007376399981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a method for controlling the prosody at the phoneme level
in an autoregressive attention-based text-to-speech system. Instead of learning
latent prosodic features with a variational framework as is commonly done, we
directly extract phoneme-level F0 and duration features from the speech data in
the training set. Each prosodic feature is discretized using unsupervised
clustering in order to produce a sequence of prosodic labels for each
utterance. This sequence is used in parallel to the phoneme sequence in order
to condition the decoder with the utilization of a prosodic encoder and a
corresponding attention module. Experimental results show that the proposed
method retains the high quality of generated speech, while allowing
phoneme-level control of F0 and duration. By replacing the F0 cluster centroids
with musical notes, the model can also provide control over the note and octave
within the range of the speaker.
- Abstract(参考訳): 本稿では,自己回帰注意型音声合成システムにおける音素レベルの韻律制御手法を提案する。
変分フレームワークを用いて潜在韻律的特徴を学習する代わりに、トレーニングセットの音声データから音素レベルF0と持続時間特徴を直接抽出する。
各韻律的特徴は教師なしクラスタリングを用いて離散化され、発話毎に韻律的ラベルのシーケンスを生成する。
このシーケンスは、韻律エンコーダと対応する注意モジュールを利用してデコーダを条件付けるために、音素列と並行して使用される。
実験の結果,提案手法はf0と持続時間の音素レベル制御を可能とし,高品質な生成音声を保持できることがわかった。
f0クラスタのセントロイドを音符に置き換えることで、モデルは話者の範囲内で音符とオクターブを制御することもできる。
関連論文リスト
- Style Description based Text-to-Speech with Conditional Prosodic Layer
Normalization based Diffusion GAN [17.876323494898536]
本稿では,4段階以内の音声サンプルを生成するための入力として,スタイル記述とコンテンツテキストに基づく高忠実度音声を生成するための拡散GANに基づくアプローチ(韻律Diff-TTS)を提案する。
提案手法の有効性を多話者LibriTTSおよびPromptSpeechデータセットに示す。
論文 参考訳(メタデータ) (2023-10-27T14:28:41Z) - High-Quality Automatic Voice Over with Accurate Alignment: Supervision
through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。
実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文 参考訳(メタデータ) (2023-06-29T15:02:22Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Singing-Tacotron: Global duration control attention and dynamic filter
for End-to-end singing voice synthesis [67.96138567288197]
本稿では,歌声合成フレームワークSinging-Tacotronを提案する。
提案フレームワークとTacotronの主な違いは、音声が楽譜の持続時間情報によって大きく制御できる点である。
論文 参考訳(メタデータ) (2022-02-16T07:35:17Z) - Improved Prosodic Clustering for Multispeaker and Speaker-independent
Phoneme-level Prosody Control [48.3671993252296]
本稿では,F0の音素レベルの韻律制御手法と,複数話者による音声合成における持続時間について述べる。
マルチスピーカアーキテクチャモジュールをプロソディエンコーダに並列に組み込んだ自己回帰型アテンションベースモデルを用いる。
論文 参考訳(メタデータ) (2021-11-19T11:43:59Z) - SCaLa: Supervised Contrastive Learning for End-to-End Automatic Speech
Recognition [36.766303689895686]
本稿では、エンドツーエンドのASRシステムのための音韻情報学習を強化するために、SCaLa(Supervised Contrastive Learning)の新たなフレームワークを提案する。
具体的には、完全に教師された設定にMCPC(Masked Contrastive Predictive Coding)を導入する。
音素学習を明示的に監視するために、SCaLaは、予め訓練された音響モデルから抽出された音素の強制アライメントに対応する可変長エンコーダ特徴をまずマスキングし、コントラスト学習によりマスクされた音素を予測する。
論文 参考訳(メタデータ) (2021-10-08T15:15:38Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。