論文の概要: End-to-End Text-to-Speech Based on Latent Representation of Speaking
Styles Using Spontaneous Dialogue
- arxiv url: http://arxiv.org/abs/2206.12040v1
- Date: Fri, 24 Jun 2022 02:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 12:58:47.891091
- Title: End-to-End Text-to-Speech Based on Latent Representation of Speaking
Styles Using Spontaneous Dialogue
- Title(参考訳): 自発対話を用いた発話スタイルの潜在表現に基づくエンドツーエンドテキスト音声合成
- Authors: Kentaro Mitsui, Tianyu Zhao, Kei Sawada, Yukiya Hono, Yoshihiko
Nankaku, Keiichi Tokuda
- Abstract要約: 本研究の目的は,人間の対話によく似たテキスト音声(TTS)を実現することである。
まず、実際の自然対話を記録し、書き起こす。
提案した対話TSは、第1段階、変分オートエンコーダ(VAE)-VITSまたはガウス混合変分オートエンコーダ(GMVAE)-VITSの2段階で訓練される。
- 参考スコア(独自算出の注目度): 19.149834552175076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent text-to-speech (TTS) has achieved quality comparable to that of
humans; however, its application in spoken dialogue has not been widely
studied. This study aims to realize a TTS that closely resembles human
dialogue. First, we record and transcribe actual spontaneous dialogues. Then,
the proposed dialogue TTS is trained in two stages: first stage, variational
autoencoder (VAE)-VITS or Gaussian mixture variational autoencoder (GMVAE)-VITS
is trained, which introduces an utterance-level latent variable into
variational inference with adversarial learning for end-to-end text-to-speech
(VITS), a recently proposed end-to-end TTS model. A style encoder that extracts
a latent speaking style representation from speech is trained jointly with TTS.
In the second stage, a style predictor is trained to predict the speaking style
to be synthesized from dialogue history. During inference, by passing the
speaking style representation predicted by the style predictor to
VAE/GMVAE-VITS, speech can be synthesized in a style appropriate to the context
of the dialogue. Subjective evaluation results demonstrate that the proposed
method outperforms the original VITS in terms of dialogue-level naturalness.
- Abstract(参考訳): 近年のTTS (text-to-speech) は人間に匹敵する品質を達成しているが, 音声対話への応用は広く研究されていない。
本研究の目的は,人間の対話によく似たTSを実現することである。
まず, 自発対話を録音し, 書き起こしを行う。
次に、第1段、変分オートエンコーダ(vae)−vitsまたはガウス混合変分オートエンコーダ(gmvae)−vitsを訓練し、最近提案されているエンドツーエンドttsモデルであるエンドツーエンドテキスト・ツー・スパイチ(vits)に対する逆学習を伴う変動推論に発話レベル潜在変数を導入する。
潜在発話スタイル表現を音声から抽出するスタイルエンコーダをttsと共同で訓練する。
第2段階では、対話履歴から合成される発話スタイルを予測するようにスタイル予測器を訓練する。
推論中、スタイル予測器が予測する発話スタイル表現をvae/gmvae-vitsに渡すことにより、対話の文脈に適したスタイルで音声を合成することができる。
主観評価の結果,提案手法は対話レベルの自然性において,元のVITSよりも優れていた。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Emphasis Rendering for Conversational Text-to-Speech with Multi-modal Multi-scale Context Modeling [40.32021786228235]
Conversational Text-to-Speech (CTTS) は、会話設定内で適切なスタイルで発話を正確に表現することを目的としている。
ER-CTTSと呼ばれるCTTSモデルのための新しい強調レンダリング手法を提案する。
データ不足に対処するため、既存の会話データセット(DailyTalk)に強調強調アノテーションを作成します。
論文 参考訳(メタデータ) (2024-10-12T13:02:31Z) - Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation [16.724603503894166]
Style-Talkerは、高速音声ダイアログ生成のためのスタイルベースのTSモデルとともに、オーディオLLMを微調整する革新的なフレームワークである。
実験の結果,Style-Talkerは対話の自然さとコヒーレンスの両方の観点から,従来のカスケードと音声音声のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-08-13T04:35:11Z) - Speech-Text Dialog Pre-training for Spoken Dialog Understanding with
Explicit Cross-Modal Alignment [54.8991472306962]
ExpliCiT cRoss-Modal Alignment (SPECTRA) を用いた音声対話理解のための音声テキスト対話事前学習を提案する。
SPECTRAは、最初の音声テキストダイアログ事前学習モデルである。
4つの下流音声テキストタスクの実験結果から,音声テキストアライメント学習におけるSPECTRAの優位性が示された。
論文 参考訳(メタデータ) (2023-05-19T10:37:56Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Acoustic Modeling for End-to-End Empathetic Dialogue Speech Synthesis
Using Linguistic and Prosodic Contexts of Dialogue History [38.65020349874135]
本稿では,エンド・ツー・エンド対話音声合成(DSS)モデルを提案する。
本モデルは,適切な対話コンテキストを予測するための言語的特徴と韻律的特徴の履歴によって条件付けられている。
共感的DSSモデルを効果的に訓練するために,1) 大規模音声コーパスで事前訓練された自己教師型学習モデル,2) 対話コンテキスト埋め込みによって予測される現在の発話の韻律埋め込みを用いたスタイル誘導学習,3) テキストと音声のモダリティを結合するクロスモーダルな注意,4) 発話のワイドなモデリングよりもきめ細かな韻律モデリングを実現するための文の埋め込みについて検討する。
論文 参考訳(メタデータ) (2022-06-16T09:47:25Z) - StyleTTS: A Style-Based Generative Model for Natural and Diverse
Text-to-Speech Synthesis [23.17929822987861]
StyleTTSは並列TTSのためのスタイルベース生成モデルであり、参照音声発話から自然な韻律で多様な音声を合成することができる。
提案手法は, 単一話者と複数話者のデータセットにおいて, 最先端のモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2022-05-30T21:34:40Z) - On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。
このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。
本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文 参考訳(メタデータ) (2021-07-20T13:30:23Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。