論文の概要: Into-TTS : Intonation Template based Prosody Control System
- arxiv url: http://arxiv.org/abs/2204.01271v1
- Date: Mon, 4 Apr 2022 06:37:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 17:28:17.150282
- Title: Into-TTS : Intonation Template based Prosody Control System
- Title(参考訳): Into-TTS : イントネーションテンプレートに基づく韻律制御システム
- Authors: Jihwan Lee, Joun Yeop Lee, Heejin Choi, Seongkyu Mun, Sangjun Park,
Chanwoo Kim
- Abstract要約: イントネーションは、話者の意図を伝える上で重要な役割を果たす。
現在のエンドツーエンドTSシステムは、適切なイントネーションをモデル化できないことが多い。
そこで我々は,異なる音調で音声を合成する,新しい直感的な手法を提案する。
- 参考スコア(独自算出の注目度): 17.68906373821669
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Intonations take an important role in delivering the intention of the
speaker. However, current end-to-end TTS systems often fail to model proper
intonations. To alleviate this problem, we propose a novel, intuitive method to
synthesize speech in different intonations using predefined intonation
templates. Prior to the acoustic model training, speech data are automatically
grouped into intonation templates by k-means clustering, according to their
sentence-final F0 contour. Two proposed modules are added to the end-to-end TTS
framework: intonation classifier and intonation encoder. The intonation
classifier recommends a suitable intonation template to the given text. The
intonation encoder, attached to the text encoder output, synthesizes speech
abiding the requested intonation template. Main contributions of our paper are:
(a) an easy-to-use intonation control system covering a wide range of users;
(b) better performance in wrapping speech in a requested intonation with
improved pitch distance and MOS; and (c) feasibility to future integration
between TTS and NLP, TTS being able to utilize contextual information. Audio
samples are available at https://srtts.github.io/IntoTTS.
- Abstract(参考訳): イントネーションは話者の意図を伝える上で重要な役割を果たす。
しかし、現在のエンドツーエンドTSシステムは適切なイントネーションをモデル化できないことが多い。
そこで本研究では,予め定義されたイントネーションテンプレートを用いて,異なるイントネーションで音声を合成する新しい直感的手法を提案する。
音響モデルトレーニングの前に、音声データは、文末F0パターンに従って、k平均クラスタリングにより、自動的にイントネーションテンプレートにグループ化される。
エンドツーエンドttsフレームワークに提案された2つのモジュール:イントネーション分類器とイントネーションエンコーダ。
インネーション分類器は、与えられたテキストに適切なインネーションテンプレートを推奨する。
テキストエンコーダ出力に取り付けられたインネーションエンコーダは、要求されたインネーションテンプレートを補助する音声を合成する。
私たちの論文の主な貢献は
(a)広範囲のユーザをカバーする使い易いイントネーション制御システム
(b)ピッチ距離とMOSを改善した要求イントネーションにおける音声の包み込み性能の向上
c)ttsとnlpの今後の統合の実現可能性について、ttsは文脈情報を利用することができる。
オーディオサンプルはhttps://srtts.github.io/IntoTTSで入手できる。
関連論文リスト
- Word-wise intonation model for cross-language TTS systems [0.0]
提案手法は,自動データマークアップとテキスト音声合成システムへの応用に適している。
キーとなるアイデアは、単語中の強勢音節の異なる配置と結びついた変動性の部分的除去である。
提案モデルは,テキストから音声への韻律記述のツールとして,あるいはバックボーンとして使用することができる。
論文 参考訳(メタデータ) (2024-09-30T15:09:42Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Pruning Self-Attention for Zero-Shot Multi-Speaker Text-to-Speech [26.533600745910437]
本稿では,TSモデルの一般化能力を向上させるために,スパースアテンション(sparse attention)と呼ばれる変圧器の効率的なプルーニング法を提案する。
また,モデルがしきい値を自動的に学習することのできる,新しい微分可能なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-28T21:25:05Z) - PauseSpeech: Natural Speech Synthesis via Pre-trained Language Model and
Pause-based Prosody Modeling [25.966328901566815]
本稿では,事前学習した言語モデルとポーズに基づく韻律モデルを用いた音声合成システムPuaseSpeechを提案する。
実験の結果,PauseSpeechは自然性において過去のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-13T01:36:55Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。