論文の概要: Into-TTS : Intonation Template based Prosody Control System
- arxiv url: http://arxiv.org/abs/2204.01271v1
- Date: Mon, 4 Apr 2022 06:37:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 17:28:17.150282
- Title: Into-TTS : Intonation Template based Prosody Control System
- Title(参考訳): Into-TTS : イントネーションテンプレートに基づく韻律制御システム
- Authors: Jihwan Lee, Joun Yeop Lee, Heejin Choi, Seongkyu Mun, Sangjun Park,
Chanwoo Kim
- Abstract要約: イントネーションは、話者の意図を伝える上で重要な役割を果たす。
現在のエンドツーエンドTSシステムは、適切なイントネーションをモデル化できないことが多い。
そこで我々は,異なる音調で音声を合成する,新しい直感的な手法を提案する。
- 参考スコア(独自算出の注目度): 17.68906373821669
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Intonations take an important role in delivering the intention of the
speaker. However, current end-to-end TTS systems often fail to model proper
intonations. To alleviate this problem, we propose a novel, intuitive method to
synthesize speech in different intonations using predefined intonation
templates. Prior to the acoustic model training, speech data are automatically
grouped into intonation templates by k-means clustering, according to their
sentence-final F0 contour. Two proposed modules are added to the end-to-end TTS
framework: intonation classifier and intonation encoder. The intonation
classifier recommends a suitable intonation template to the given text. The
intonation encoder, attached to the text encoder output, synthesizes speech
abiding the requested intonation template. Main contributions of our paper are:
(a) an easy-to-use intonation control system covering a wide range of users;
(b) better performance in wrapping speech in a requested intonation with
improved pitch distance and MOS; and (c) feasibility to future integration
between TTS and NLP, TTS being able to utilize contextual information. Audio
samples are available at https://srtts.github.io/IntoTTS.
- Abstract(参考訳): イントネーションは話者の意図を伝える上で重要な役割を果たす。
しかし、現在のエンドツーエンドTSシステムは適切なイントネーションをモデル化できないことが多い。
そこで本研究では,予め定義されたイントネーションテンプレートを用いて,異なるイントネーションで音声を合成する新しい直感的手法を提案する。
音響モデルトレーニングの前に、音声データは、文末F0パターンに従って、k平均クラスタリングにより、自動的にイントネーションテンプレートにグループ化される。
エンドツーエンドttsフレームワークに提案された2つのモジュール:イントネーション分類器とイントネーションエンコーダ。
インネーション分類器は、与えられたテキストに適切なインネーションテンプレートを推奨する。
テキストエンコーダ出力に取り付けられたインネーションエンコーダは、要求されたインネーションテンプレートを補助する音声を合成する。
私たちの論文の主な貢献は
(a)広範囲のユーザをカバーする使い易いイントネーション制御システム
(b)ピッチ距離とMOSを改善した要求イントネーションにおける音声の包み込み性能の向上
c)ttsとnlpの今後の統合の実現可能性について、ttsは文脈情報を利用することができる。
オーディオサンプルはhttps://srtts.github.io/IntoTTSで入手できる。
関連論文リスト
- Pruning Self-Attention for Zero-Shot Multi-Speaker Text-to-Speech [26.533600745910437]
本稿では,TSモデルの一般化能力を向上させるために,スパースアテンション(sparse attention)と呼ばれる変圧器の効率的なプルーニング法を提案する。
また,モデルがしきい値を自動的に学習することのできる,新しい微分可能なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-28T21:25:05Z) - PauseSpeech: Natural Speech Synthesis via Pre-trained Language Model and
Pause-based Prosody Modeling [25.966328901566815]
本稿では,事前学習した言語モデルとポーズに基づく韻律モデルを用いた音声合成システムPuaseSpeechを提案する。
実験の結果,PauseSpeechは自然性において過去のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-13T01:36:55Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - ParaTTS: Learning Linguistic and Prosodic Cross-sentence Information in
Paragraph-based TTS [19.988974534582205]
本稿では, 言語情報と韻律情報を, クロス文, 組込み構造を考慮した訓練によりモデル化することを提案する。
マンダリン系女性話者が記録した物語のオーディオブックコーパス(4.08時間)を訓練した。
提案したTSモデルは,比較的自然で高品質な音声節を生成できることを示す。
論文 参考訳(メタデータ) (2022-09-14T08:34:16Z) - UTTS: Unsupervised TTS with Conditional Disentangled Sequential
Variational Auto-encoder [30.376259456529368]
TTS音響モデリング(AM)のためのテキストオーディオペアを必要としない、教師なし音声合成(UTTS)フレームワークを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z) - Investigation of learning abilities on linguistic features in
sequence-to-sequence text-to-speech synthesis [48.151894340550385]
ニューラルシークエンス・ツー・シークエンス・テキスト・トゥ・音声合成(TTS)は、テキストや音素のような単純な言語的特徴から直接高品質な音声を生成することができる。
ニューラルシークエンス・ツー・シークエンス TTS が日本語と英語でどのように機能するかを考察する。
論文 参考訳(メタデータ) (2020-05-20T23:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。