論文の概要: Word-Level Style Control for Expressive, Non-attentive Speech Synthesis
- arxiv url: http://arxiv.org/abs/2111.10173v1
- Date: Fri, 19 Nov 2021 12:03:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 16:12:52.565475
- Title: Word-Level Style Control for Expressive, Non-attentive Speech Synthesis
- Title(参考訳): 表現型非係り受け音声合成のための単語レベル制御
- Authors: Konstantinos Klapsas, Nikolaos Ellinas, June Sig Sung, Hyoungmin Park,
Spyros Raptis
- Abstract要約: 2つのエンコーダの助けを借りて、音声データの単語レベルのスタイリスティックな表現と韻律的な表現を学習しようとする。
結果として得られたモデルにより,韻律伝達能力だけでなく,単語レベルとグローバルな制御が可能であることがわかった。
- 参考スコア(独自算出の注目度): 1.8262960053058506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an expressive speech synthesis architecture for modeling
and controlling the speaking style at a word level. It attempts to learn
word-level stylistic and prosodic representations of the speech data, with the
aid of two encoders. The first one models style by finding a combination of
style tokens for each word given the acoustic features, and the second outputs
a word-level sequence conditioned only on the phonetic information in order to
disentangle it from the style information. The two encoder outputs are aligned
and concatenated with the phoneme encoder outputs and then decoded with a
Non-Attentive Tacotron model. An extra prior encoder is used to predict the
style tokens autoregressively, in order for the model to be able to run without
a reference utterance. We find that the resulting model gives both word-level
and global control over the style, as well as prosody transfer capabilities.
- Abstract(参考訳): 本稿では,単語レベルで発話スタイルをモデル化し制御するための表現型音声合成アーキテクチャを提案する。
2つのエンコーダの助けを借りて、単語レベルのスタイリスティックと韻律表現の音声データの学習を試みる。
第1のモデルでは、音響的特徴から各単語のスタイルトークンの組み合わせを見つけ、第2のモデルでは、スタイル情報から切り離すために、音声情報のみに条件付けられた単語レベルのシーケンスを出力する。
2つのエンコーダ出力は、音素エンコーダ出力と整列して連結され、非減衰タコトロンモデルで復号される。
追加の事前エンコーダは、参照発話なしでモデルが実行できるように、スタイルトークンを自動回帰的に予測するために使用される。
結果として得られたモデルは、語レベルとグローバルの両方のスタイルと、韻律伝達機能の両方を制御できることが分かりました。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - StyleSpeech: Self-supervised Style Enhancing with VQ-VAE-based
Pre-training for Expressive Audiobook Speech Synthesis [63.019962126807116]
音声ブックの合成音声の表現的品質は、一般化されたモデルアーキテクチャとアンバランスなスタイル分布によって制限される。
本稿では,VQ-VAEに基づく音声合成のための事前学習による自己教師付きスタイル向上手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T14:13:26Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Unsupervised word-level prosody tagging for controllable speech
synthesis [19.508501785186755]
教師なし単語レベルの韻律タグ付けを2段階に分けた新しい手法を提案する。
まず、各単語を音声内容に応じて決定木で分類し、その後、GMMを用いて韻律をクラスタ化する。
単語レベルの韻律タグを抽出したTSシステムは、制御可能な音声合成のために訓練される。
論文 参考訳(メタデータ) (2022-02-15T05:28:23Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。
訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文 参考訳(メタデータ) (2021-04-08T05:50:09Z) - Inference Time Style Control for Summarization [6.017006996402699]
本稿では,事前学習されたトランスフォーマライズモデル上で,サマリデコード中にデプロイ可能な2つの新しい手法を提案する。
単純さ制御による要約実験では、自動評価と人間の判断が共に、よりシンプルな言語で出力を生成するモデルを見つけました。
論文 参考訳(メタデータ) (2021-04-05T00:27:18Z) - Exploring Contextual Word-level Style Relevance for Unsupervised Style
Transfer [60.07283363509065]
教師なしのスタイル転送は、元のコンテンツを保持しながら入力文のスタイルを変更することを目的としている。
本稿では,各出力語がターゲットスタイルに関連性があることを活かした,新たな注目シーケンス・ツー・シーケンスモデルを提案する。
実験結果から,提案手法は転送精度とコンテンツ保存の両面から,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-05T10:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。