論文の概要: Speaker Adaption with Intuitive Prosodic Features for Statistical
Parametric Speech Synthesis
- arxiv url: http://arxiv.org/abs/2203.00951v1
- Date: Wed, 2 Mar 2022 09:00:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 16:09:18.522975
- Title: Speaker Adaption with Intuitive Prosodic Features for Statistical
Parametric Speech Synthesis
- Title(参考訳): 統計的パラメトリック音声合成のための直感的韻律特徴を用いた話者適応
- Authors: Pengyu Cheng and Zhenhua Ling
- Abstract要約: 統計的パラメトリック音声合成のための直感的な韻律特徴を持つ話者適応法を提案する。
直感的な韻律的特徴は発話レベルまたは話者レベルで抽出され、それぞれ既存の話者エンコーディングベースおよび話者エンベディングベース適応フレームワークに統合される。
- 参考スコア(独自算出の注目度): 50.5027550591763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a method of speaker adaption with intuitive
prosodic features for statistical parametric speech synthesis. The intuitive
prosodic features employed in this method include pitch, pitch range, speech
rate and energy considering that they are directly related with the overall
prosodic characteristics of different speakers. The intuitive prosodic features
are extracted at utterance-level or speaker-level, and are further integrated
into the existing speaker-encoding-based and speaker-embedding-based adaptation
frameworks respectively. The acoustic models are sequence-to-sequence ones
based on Tacotron2. Intuitive prosodic features are concatenated with text
encoder outputs and speaker vectors for decoding acoustic features.Experimental
results have demonstrated that our proposed methods can achieve better
objective and subjective performance than the baseline methods without
intuitive prosodic features. Besides, the proposed speaker adaption method with
utterance-level prosodic features has achieved the best similarity of synthetic
speech among all compared methods.
- Abstract(参考訳): 本稿では,統計的パラメトリック音声合成のための直観的韻律特徴を用いた話者適応法を提案する。
この手法で用いられる直感的な韻律の特徴は、ピッチ、ピッチ範囲、発話速度、エネルギーであり、異なる話者の全体的な韻律特性と直接的に関係している。
直感的な韻律的特徴を発話レベルまたは話者レベルで抽出し、既存の話者エンコーディングベースおよび話者エンベディングベース適応フレームワークにさらに統合する。
音響モデルはTacotron2に基づくシーケンス対シーケンスモデルである。
音声特徴を復号化するためのテキストエンコーダ出力や話者ベクトルと直感的韻律特徴を結合し, 実験により, 直感的韻律特徴を伴わない基本手法よりも, 客観的, 主観的性能を向上できることを示した。
また,提案する発話レベルの韻律特徴を持つ話者適応法は,すべての比較手法において合成音声の最適類似性が得られた。
関連論文リスト
- Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and
Phoneme Duration for Multi-Speaker Speech Synthesis [16.497022070614236]
本稿では,ターゲット話者による発話数を用いて,音素長をモデル化するための音声リズムに基づく話者埋め込み手法を提案する。
提案手法の新たな特徴は、音素とその持続時間から抽出されたリズムに基づく埋め込みであり、発声リズムに関連することが知られている。
論文 参考訳(メタデータ) (2024-02-11T02:26:43Z) - ELF: Encoding Speaker-Specific Latent Speech Feature for Speech Synthesis [5.824018496599849]
多数の話者をモデル化する新しい手法を提案する。
訓練されたマルチスピーカーモデルのように、話者の全体的な特徴を詳細に表現することができる。
論文 参考訳(メタデータ) (2023-11-20T13:13:24Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - Improving multi-speaker TTS prosody variance with a residual encoder and
normalizing flows [9.515272632173884]
話者IDと韻律のアンタングル化は、自然性を改善し、より可変な合成を生成するために、テキストから音声へのシステムにおいて不可欠である。
本稿では,流れ正規化話者埋め込みにTacotron2のようなアーキテクチャを適用し,絡み合う問題にアプローチする新しいニューラルテキスト音声合成モデルを提案する。
論文 参考訳(メタデータ) (2021-06-10T14:08:42Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。