論文の概要: Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2106.06233v1
- Date: Fri, 11 Jun 2021 08:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 23:29:04.720185
- Title: Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis
- Title(参考訳): 対話型テキスト合成のためのマルチモーダル階層型コンテキストエンコーディングによる音声スタイル学習
- Authors: Jingbei Li, Yi Meng, Chenyi Li, Zhiyong Wu, Helen Meng, Chao Weng and
Dan Su
- Abstract要約: 歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
- 参考スコア(独自算出の注目度): 59.27994987902646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For conversational text-to-speech (TTS) systems, it is vital that the systems
can adjust the spoken styles of synthesized speech according to different
content and spoken styles in historical conversations. However, the study about
learning spoken styles from historical conversations is still in its infancy.
Only the transcripts of the historical conversations are considered, which
neglects the spoken styles in historical speeches. Moreover, only the
interactions of the global aspect between speakers are modeled, missing the
party aspect self interactions inside each speaker. In this paper, to achieve
better spoken style learning for conversational TTS, we propose a spoken style
learning approach with multi-modal hierarchical context encoding. The textual
information and spoken styles in the historical conversations are processed
through multiple hierarchical recurrent neural networks to learn the spoken
style related features in global and party aspects. The attention mechanism is
further employed to summarize these features into a conversational context
encoding. Experimental results demonstrate the effectiveness of our proposed
approach, which outperform a baseline method using context encoding learnt only
from the transcripts in global aspects, with MOS score on the naturalness of
synthesized speech increasing from 3.138 to 3.408 and ABX preference rate
exceeding the baseline method by 36.45%.
- Abstract(参考訳): 対話型音声合成システム(TTS)では,歴史的会話において,異なる内容や話し方に応じて合成音声の音声スタイルを調整できることが不可欠である。
しかし、歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的な会話の書き起こしのみが考慮され、歴史演説の話し方を無視している。
さらに、話者間のグローバルな側面の相互作用のみをモデル化し、各話者内のパーティ側面の自己相互作用を欠いている。
本稿では,対話型ttsのための音声スタイル学習を向上すべく,マルチモーダル階層的コンテキストエンコーディングを用いた音声スタイル学習手法を提案する。
歴史的な会話におけるテキスト情報と音声のスタイルは、複数の階層的再帰的ニューラルネットワークを通して処理され、グローバルおよびパーティの側面で音声のスタイルに関連する特徴を学ぶ。
注意機構はこれらの特徴を会話コンテキストエンコーディングに要約するためにさらに用いられる。
提案手法の有効性を実験的に検証し,本手法の有効性を実証した。本手法は,大域的側面の書き起こしのみから学習した文脈エンコードを用いたベースライン法よりも優れており,mosスコアでは合成音声の自然性が3.138から3.408に向上し,36.45%のabx嗜好率がベースライン法を上回った。
関連論文リスト
- Conversational Speech Recognition by Learning Audio-textual Cross-modal
Contextual Representation [29.591744847539843]
本稿では,クロスモーダルな会話表現を備えたコンフォーマーエンコーダデコーダモデルを拡張した,新しい会話型ASRシステムを提案する。
提案手法は、特殊エンコーダとモーダルレベルのマスク入力により、事前訓練された音声とテキストモデルを組み合わせる。
クロスモーダル表現と会話表現の両方をデコーダに導入することで、我々のモデルは情報損失のない長い文よりもコンテキストを保ちます。
論文 参考訳(メタデータ) (2023-10-22T11:57:33Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - M2-CTTS: End-to-End Multi-scale Multi-modal Conversational
Text-to-Speech Synthesis [38.85861825252267]
M2-CTTSは、歴史的会話を包括的に活用し、韻律表現を強化することを目的としている。
我々は、粗粒度と細粒度の両方のモデリングにより、テキストコンテキストモジュールと音響コンテキストモジュールを設計する。
論文 参考訳(メタデータ) (2023-05-03T16:59:38Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:20:20Z) - End-to-End Text-to-Speech Based on Latent Representation of Speaking
Styles Using Spontaneous Dialogue [19.149834552175076]
本研究の目的は,人間の対話によく似たテキスト音声(TTS)を実現することである。
まず、実際の自然対話を記録し、書き起こす。
提案した対話TSは、第1段階、変分オートエンコーダ(VAE)-VITSまたはガウス混合変分オートエンコーダ(GMVAE)-VITSの2段階で訓練される。
論文 参考訳(メタデータ) (2022-06-24T02:32:12Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Towards Expressive Speaking Style Modelling with Hierarchical Context
Information for Mandarin Speech Synthesis [37.93814851450597]
文脈から発話スタイルをモデル化するための階層的枠組みを提案する。
より広い範囲の文脈情報を調べるために,階層型コンテキストエンコーダを提案する。
このエンコーダがスタイル表現をより良く学習できるように、我々は新しいトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2022-03-23T05:27:57Z) - Who says like a style of Vitamin: Towards Syntax-Aware
DialogueSummarization using Multi-task Learning [2.251583286448503]
個々の話者からの発声と独特の統語構造との関係に焦点をあてる。
話者は、音声プリントのような言語情報を含むことができる独自のテキストスタイルを持つ。
構文認識情報と対話要約の両方をマルチタスクで学習する。
論文 参考訳(メタデータ) (2021-09-29T05:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。