論文の概要: Improved Prosodic Clustering for Multispeaker and Speaker-independent
Phoneme-level Prosody Control
- arxiv url: http://arxiv.org/abs/2111.10168v1
- Date: Fri, 19 Nov 2021 11:43:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 16:13:12.729176
- Title: Improved Prosodic Clustering for Multispeaker and Speaker-independent
Phoneme-level Prosody Control
- Title(参考訳): マルチスピーカーのための韻律クラスタリングの改善と話者非依存音素レベル韻律制御
- Authors: Myrsini Christidou, Alexandra Vioni, Nikolaos Ellinas, Georgios
Vamvoukakis, Konstantinos Markopoulos, Panos Kakoulidis, June Sig Sung,
Hyoungmin Park, Aimilios Chalamandaris, Pirros Tsiakoulis
- Abstract要約: 本稿では,F0の音素レベルの韻律制御手法と,複数話者による音声合成における持続時間について述べる。
マルチスピーカアーキテクチャモジュールをプロソディエンコーダに並列に組み込んだ自己回帰型アテンションベースモデルを用いる。
- 参考スコア(独自算出の注目度): 48.3671993252296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a method for phoneme-level prosody control of F0 and
duration on a multispeaker text-to-speech setup, which is based on prosodic
clustering. An autoregressive attention-based model is used, incorporating
multispeaker architecture modules in parallel to a prosody encoder. Several
improvements over the basic single-speaker method are proposed that increase
the prosodic control range and coverage. More specifically we employ data
augmentation, F0 normalization, balanced clustering for duration, and
speaker-independent prosodic clustering. These modifications enable
fine-grained phoneme-level prosody control for all speakers contained in the
training set, while maintaining the speaker identity. The model is also
fine-tuned to unseen speakers with limited amounts of data and it is shown to
maintain its prosody control capabilities, verifying that the
speaker-independent prosodic clustering is effective. Experimental results
verify that the model maintains high output speech quality and that the
proposed method allows efficient prosody control within each speaker's range
despite the variability that a multispeaker setting introduces.
- Abstract(参考訳): 本稿では,韻律クラスタリングに基づくマルチ話者音声合成におけるf0と持続時間の音素レベル韻律制御手法を提案する。
プロソディエンコーダと並行してマルチスピーカーアーキテクチャモジュールを組み込んだ自己回帰的注意ベースモデルが用いられる。
韻律制御範囲と範囲を増加させる基本単一話者法に対するいくつかの改善が提案されている。
より具体的には、データ拡張、f0正規化、持続時間のバランス付きクラスタリング、話者非依存の韻律クラスタリングを用いる。
これらの修正は、話者のアイデンティティを維持しながら、トレーニングセットに含まれるすべての話者に対して、きめ細かい音素レベルの韻律制御を可能にする。
モデルはまた、限られた量のデータを持つ未確認話者に微調整され、その韻律制御能力を維持し、話者非依存の韻律クラスタリングが有効であることを示す。
実験結果から,提案手法は,複数話者設定が導入する可変性に拘わらず,各話者の範囲内で効率の良い韻律制御を可能にすることを確認した。
関連論文リスト
- Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios [0.9094127664014627]
エンドツーエンドのニューラルスピーカダイアリゼーションシステムは、音声重複を効果的に処理しながら、話者ダイアリゼーションタスクに対処することができる。
本研究は,話者識別能力を高めるため,エンド・ツー・エンドシステムへの話者情報埋め込みの導入について検討する。
論文 参考訳(メタデータ) (2024-07-01T14:26:28Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Self supervised learning for robust voice cloning [3.7989740031754806]
自己教師型フレームワークで学習した特徴を用いて,高品質な音声表現を生成する。
学習した特徴は、事前訓練された発話レベルの埋め込みや、非減衰タコトロンアーキテクチャへの入力として使用される。
この手法により、ラベルなしマルチスピーカデータセットでモデルをトレーニングし、未知の話者埋め込みを用いて話者の声を模倣することができる。
論文 参考訳(メタデータ) (2022-04-07T13:05:24Z) - Prosodic Clustering for Phoneme-level Prosody Control in End-to-End
Speech Synthesis [49.6007376399981]
本稿では,自己回帰的注意に基づく音声合成システムにおいて,音素レベルでの韻律制御手法を提案する。
提案手法は、F0と持続時間の音素レベル制御を可能とし、生成した音声の品質を維持する。
F0クラスタのセントロイドを音符に置き換えることで、モデルはスピーカーの範囲内で音符とオクターブを制御できる。
論文 参考訳(メタデータ) (2021-11-19T12:10:16Z) - Zero-Shot Personalized Speech Enhancement through Speaker-Informed Model
Selection [25.05285328404576]
特定のテストタイムスピーカーに対する音声の最適化は、パフォーマンスを改善し、ランタイムの複雑さを低減する。
本稿では,各専門モジュールが個別の学習セット話者の分割から雑音発声を識別するアンサンブルモデルを提案する。
トレーニングセットのスピーカーを非オーバーラップ意味的に類似したグループにグルーピングすることは、非自明で不明確です。
論文 参考訳(メタデータ) (2021-05-08T00:15:57Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。