論文の概要: Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2106.06233v1
- Date: Fri, 11 Jun 2021 08:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 23:29:04.720185
- Title: Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis
- Title(参考訳): 対話型テキスト合成のためのマルチモーダル階層型コンテキストエンコーディングによる音声スタイル学習
- Authors: Jingbei Li, Yi Meng, Chenyi Li, Zhiyong Wu, Helen Meng, Chao Weng and
Dan Su
- Abstract要約: 歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
- 参考スコア(独自算出の注目度): 59.27994987902646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For conversational text-to-speech (TTS) systems, it is vital that the systems
can adjust the spoken styles of synthesized speech according to different
content and spoken styles in historical conversations. However, the study about
learning spoken styles from historical conversations is still in its infancy.
Only the transcripts of the historical conversations are considered, which
neglects the spoken styles in historical speeches. Moreover, only the
interactions of the global aspect between speakers are modeled, missing the
party aspect self interactions inside each speaker. In this paper, to achieve
better spoken style learning for conversational TTS, we propose a spoken style
learning approach with multi-modal hierarchical context encoding. The textual
information and spoken styles in the historical conversations are processed
through multiple hierarchical recurrent neural networks to learn the spoken
style related features in global and party aspects. The attention mechanism is
further employed to summarize these features into a conversational context
encoding. Experimental results demonstrate the effectiveness of our proposed
approach, which outperform a baseline method using context encoding learnt only
from the transcripts in global aspects, with MOS score on the naturalness of
synthesized speech increasing from 3.138 to 3.408 and ABX preference rate
exceeding the baseline method by 36.45%.
- Abstract(参考訳): 対話型音声合成システム(TTS)では,歴史的会話において,異なる内容や話し方に応じて合成音声の音声スタイルを調整できることが不可欠である。
しかし、歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的な会話の書き起こしのみが考慮され、歴史演説の話し方を無視している。
さらに、話者間のグローバルな側面の相互作用のみをモデル化し、各話者内のパーティ側面の自己相互作用を欠いている。
本稿では,対話型ttsのための音声スタイル学習を向上すべく,マルチモーダル階層的コンテキストエンコーディングを用いた音声スタイル学習手法を提案する。
歴史的な会話におけるテキスト情報と音声のスタイルは、複数の階層的再帰的ニューラルネットワークを通して処理され、グローバルおよびパーティの側面で音声のスタイルに関連する特徴を学ぶ。
注意機構はこれらの特徴を会話コンテキストエンコーディングに要約するためにさらに用いられる。
提案手法の有効性を実験的に検証し,本手法の有効性を実証した。本手法は,大域的側面の書き起こしのみから学習した文脈エンコードを用いたベースライン法よりも優れており,mosスコアでは合成音声の自然性が3.138から3.408に向上し,36.45%のabx嗜好率がベースライン法を上回った。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Emphasis Rendering for Conversational Text-to-Speech with Multi-modal Multi-scale Context Modeling [40.32021786228235]
Conversational Text-to-Speech (CTTS) は、会話設定内で適切なスタイルで発話を正確に表現することを目的としている。
ER-CTTSと呼ばれるCTTSモデルのための新しい強調レンダリング手法を提案する。
データ不足に対処するため、既存の会話データセット(DailyTalk)に強調強調アノテーションを作成します。
論文 参考訳(メタデータ) (2024-10-12T13:02:31Z) - Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation [16.724603503894166]
Style-Talkerは、高速音声ダイアログ生成のためのスタイルベースのTSモデルとともに、オーディオLLMを微調整する革新的なフレームワークである。
実験の結果,Style-Talkerは対話の自然さとコヒーレンスの両方の観点から,従来のカスケードと音声音声のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-08-13T04:35:11Z) - Generative Expressive Conversational Speech Synthesis [47.53014375797254]
会話音声合成(CSS)は,ユーザエージェントによる会話設定において,適切な発話スタイルでターゲット発話を表現することを目的としている。
GPT-Talkerと呼ばれる新しい生成表現型CSSシステムを提案する。
マルチターン対話履歴のマルチモーダル情報を離散トークンシーケンスに変換し、それらをシームレスに統合して総合的なユーザエージェント対話コンテキストを形成する。
論文 参考訳(メタデータ) (2024-07-31T10:02:21Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:20:20Z) - End-to-End Text-to-Speech Based on Latent Representation of Speaking
Styles Using Spontaneous Dialogue [19.149834552175076]
本研究の目的は,人間の対話によく似たテキスト音声(TTS)を実現することである。
まず、実際の自然対話を記録し、書き起こす。
提案した対話TSは、第1段階、変分オートエンコーダ(VAE)-VITSまたはガウス混合変分オートエンコーダ(GMVAE)-VITSの2段階で訓練される。
論文 参考訳(メタデータ) (2022-06-24T02:32:12Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Who says like a style of Vitamin: Towards Syntax-Aware
DialogueSummarization using Multi-task Learning [2.251583286448503]
個々の話者からの発声と独特の統語構造との関係に焦点をあてる。
話者は、音声プリントのような言語情報を含むことができる独自のテキストスタイルを持つ。
構文認識情報と対話要約の両方をマルチタスクで学習する。
論文 参考訳(メタデータ) (2021-09-29T05:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。