論文の概要: Controllable speech synthesis by learning discrete phoneme-level
prosodic representations
- arxiv url: http://arxiv.org/abs/2211.16307v1
- Date: Tue, 29 Nov 2022 15:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 15:29:18.338185
- Title: Controllable speech synthesis by learning discrete phoneme-level
prosodic representations
- Title(参考訳): 離散音素レベル韻律表現の学習による可制御音声合成
- Authors: Nikolaos Ellinas, Myrsini Christidou, Alexandra Vioni, June Sig Sung,
Aimilios Chalamandaris, Pirros Tsiakoulis, Paris Mastorocostas
- Abstract要約: 直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
- 参考スコア(独自算出の注目度): 53.926969174260705
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we present a novel method for phoneme-level prosody control of
F0 and duration using intuitive discrete labels. We propose an unsupervised
prosodic clustering process which is used to discretize phoneme-level F0 and
duration features from a multispeaker speech dataset. These features are fed as
an input sequence of prosodic labels to a prosody encoder module which augments
an autoregressive attention-based text-to-speech model. We utilize various
methods in order to improve prosodic control range and coverage, such as
augmentation, F0 normalization, balanced clustering for duration and
speaker-independent clustering. The final model enables fine-grained
phoneme-level prosody control for all speakers contained in the training set,
while maintaining the speaker identity. Instead of relying on reference
utterances for inference, we introduce a prior prosody encoder which learns the
style of each speaker and enables speech synthesis without the requirement of
reference audio. We also fine-tune the multispeaker model to unseen speakers
with limited amounts of data, as a realistic application scenario and show that
the prosody control capabilities are maintained, verifying that the
speaker-independent prosodic clustering is effective. Experimental results show
that the model has high output speech quality and that the proposed method
allows efficient prosody control within each speaker's range despite the
variability that a multispeaker setting introduces.
- Abstract(参考訳): 本稿では,F0の音素レベルの韻律制御と持続時間について,直感的な離散ラベルを用いた新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
これらの特徴は、韻律ラベルの入力シーケンスとして、自己回帰的注意に基づく音声合成モデルを拡張する韻律エンコーダモジュールに供給される。
本研究では,韻律的制御範囲と範囲の改善,強化,f0正規化,持続時間に対するバランスの取れたクラスタリング,話者非依存クラスタリングなどを行う。
最終モデルは、話者のアイデンティティを維持しながら、トレーニングセットに含まれるすべての話者に対して、きめ細かい音素レベルの韻律制御を可能にする。
提案手法では,参照音声に頼らず,各話者のスタイルを学習し,参照音声を必要とせずに音声合成が可能な先行韻律エンコーダを導入する。
また,実際のアプリケーションシナリオとして,限られたデータ量で話者を認識できないようにマルチスピーカモデルを微調整し,韻律制御能力が維持されていることを示すことで,話者非依存の韻律クラスタリングが有効であることを検証した。
実験の結果,本モデルは高い出力音声品質を有し,マルチスピーカー設定による変動にもかかわらず,各話者の範囲内で効率的な韻律制御が可能となった。
関連論文リスト
- Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech [25.707717591185386]
品質の劣化を伴わずに、話者の声と、音声参照の韻律を独立にクローンすることが可能であることを示す。
コードとトレーニングされたモデルはすべて、静的およびインタラクティブなデモとともに利用可能です。
論文 参考訳(メタデータ) (2022-06-24T11:54:59Z) - Self supervised learning for robust voice cloning [3.7989740031754806]
自己教師型フレームワークで学習した特徴を用いて,高品質な音声表現を生成する。
学習した特徴は、事前訓練された発話レベルの埋め込みや、非減衰タコトロンアーキテクチャへの入力として使用される。
この手法により、ラベルなしマルチスピーカデータセットでモデルをトレーニングし、未知の話者埋め込みを用いて話者の声を模倣することができる。
論文 参考訳(メタデータ) (2022-04-07T13:05:24Z) - Prosodic Clustering for Phoneme-level Prosody Control in End-to-End
Speech Synthesis [49.6007376399981]
本稿では,自己回帰的注意に基づく音声合成システムにおいて,音素レベルでの韻律制御手法を提案する。
提案手法は、F0と持続時間の音素レベル制御を可能とし、生成した音声の品質を維持する。
F0クラスタのセントロイドを音符に置き換えることで、モデルはスピーカーの範囲内で音符とオクターブを制御できる。
論文 参考訳(メタデータ) (2021-11-19T12:10:16Z) - Improved Prosodic Clustering for Multispeaker and Speaker-independent
Phoneme-level Prosody Control [48.3671993252296]
本稿では,F0の音素レベルの韻律制御手法と,複数話者による音声合成における持続時間について述べる。
マルチスピーカアーキテクチャモジュールをプロソディエンコーダに並列に組み込んだ自己回帰型アテンションベースモデルを用いる。
論文 参考訳(メタデータ) (2021-11-19T11:43:59Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。