論文の概要: Learning utterance-level representations through token-level acoustic
latents prediction for Expressive Speech Synthesis
- arxiv url: http://arxiv.org/abs/2211.00523v1
- Date: Tue, 1 Nov 2022 15:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 13:35:03.121015
- Title: Learning utterance-level representations through token-level acoustic
latents prediction for Expressive Speech Synthesis
- Title(参考訳): 表現型音声合成のためのトークンレベルの音響遅延予測による発話レベル表現の学習
- Authors: Karolos Nikitaras, Konstantinos Klapsas, Nikolaos Ellinas, Georgia
Maniati, June Sig Sung, Inchul Hwang, Spyros Raptis, Aimilios Chalamandaris,
Pirros Tsiakoulis
- Abstract要約: 細粒度潜在空間もまた粗粒度情報を捉えており、これは多彩な韻律表現を捉えるために潜在空間の次元が大きくなるにつれて明らかである。
本稿では、まず、豊富な音声属性をトークンレベル潜在空間にキャプチャし、入力テキストを付与した先行ネットワークを個別に訓練し、前ステップで抽出した音素レベル後潜在音を予測するために、発話レベル表現を学習することでこの問題を軽減する。
- 参考スコア(独自算出の注目度): 3.691712391306624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an Expressive Speech Synthesis model that utilizes
token-level latent prosodic variables in order to capture and control
utterance-level attributes, such as character acting voice and speaking style.
Current works aim to explicitly factorize such fine-grained and utterance-level
speech attributes into different representations extracted by modules that
operate in the corresponding level. We show that the fine-grained latent space
also captures coarse-grained information, which is more evident as the
dimension of latent space increases in order to capture diverse prosodic
representations. Therefore, a trade-off arises between the diversity of the
token-level and utterance-level representations and their disentanglement. We
alleviate this issue by first capturing rich speech attributes into a
token-level latent space and then, separately train a prior network that given
the input text, learns utterance-level representations in order to predict the
phoneme-level, posterior latents extracted during the previous step. Both
qualitative and quantitative evaluations are used to demonstrate the
effectiveness of the proposed approach. Audio samples are available in our demo
page.
- Abstract(参考訳): 本稿では,文字行動音声や発話スタイルなどの発話レベルの属性をキャプチャし制御するために,トークンレベルの潜在韻律変数を用いた表現型音声合成モデルを提案する。
現在の研究は、このような細粒度および発話レベルの音声属性を、対応するレベルで動作するモジュールによって抽出された異なる表現に明示的に分解することを目的としている。
細粒度潜在性空間は粗粒度情報もキャプチャするので,多種多様な韻律表現を捉えるために,潜在性空間の次元が増加するとより明確になる。
したがって、トークンレベルの表現と発話レベルの表現の多様性と、それらの絡み合いの間にトレードオフが生じる。
本稿では、まず、豊富な音声属性をトークンレベル潜在空間にキャプチャし、入力テキストを付与した先行ネットワークを個別に訓練し、その前のステップで抽出した音素レベル後潜在音を予測するために、発話レベル表現を学習することでこの問題を軽減する。
定性評価と定量的評価の両方を用いて,提案手法の有効性を実証する。
オーディオサンプルはデモページから入手できます。
関連論文リスト
- STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。
Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。
我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文 参考訳(メタデータ) (2024-09-04T02:20:59Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。
本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。
SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文 参考訳(メタデータ) (2023-11-04T04:54:17Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Cognitive Coding of Speech [6.396288020763143]
本稿では,2つの階層的抽象化レベルにおける文脈表現の教師なし抽出による音声の認知符号化手法を提案する。
この分解は、異なる時間スケールで動作している下段と上段の2段階のニューラルネットワークによって達成される。
音声圧縮を念頭に置いて,抽出した表現に対する次元縮小と低量子化の影響について検討する。
論文 参考訳(メタデータ) (2021-10-08T16:49:16Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Deep Learning for Prominence Detection in Children's Read Speech [13.041607703862724]
子どもの読書記録のラベル付きデータセットを,話者に依存しない著名単語の検出のために検討する。
事前調整されたランダムフォレストアンサンブル予測器をRNNシーケンスに置き換え、潜在的なコンテキスト依存性を利用する。
深層学習を用いて、基本周波数、強度、スペクトル形状の低レベル音響輪郭から単語レベル特徴を得る。
論文 参考訳(メタデータ) (2021-04-12T14:15:08Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。