論文の概要: FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis
- arxiv url: http://arxiv.org/abs/2210.15360v1
- Date: Thu, 27 Oct 2022 12:20:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 15:13:21.287977
- Title: FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis
- Title(参考訳): FCTalker:表現的会話音声合成のための微細・粗粒コンテキストモデリング
- Authors: Yifan Hu, Rui Liu, Guanglai Gao, Haizhou Li
- Abstract要約: Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
- 参考スコア(独自算出の注目度): 75.74906149219817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational Text-to-Speech (TTS) aims to synthesis an utterance with the
right linguistic and affective prosody in a conversational context. The
correlation between the current utterance and the dialogue history at the
utterance level was used to improve the expressiveness of synthesized speech.
However, the fine-grained information in the dialogue history at the word level
also has an important impact on the prosodic expression of an utterance, which
has not been well studied in the prior work. Therefore, we propose a novel
expressive conversational TTS model, termed as FCTalker, that learn the fine
and coarse grained context dependency at the same time during speech
generation. Specifically, the FCTalker includes fine and coarse grained
encoders to exploit the word and utterance-level context dependency. To model
the word-level dependencies between an utterance and its dialogue history, the
fine-grained dialogue encoder is built on top of a dialogue BERT model. The
experimental results show that the proposed method outperforms all baselines
and generates more expressive speech that is contextually appropriate. We
release the source code at: https://github.com/walker-hyf/FCTalker.
- Abstract(参考訳): Conversational Text-to-Speech (TTS) は、会話の文脈において適切な言語的・感情的な韻律で発話を合成することを目的としている。
合成音声の表現性を向上させるために, 現在の発話と発話レベルの対話履歴の相関式を用いた。
しかし,単語レベルでの対話履歴のきめ細かい情報もまた,従来の研究では十分に研究されていない発話の韻律表現に重要な影響を与えている。
そこで本研究では,音声生成時の微妙で粗い文脈依存性を同時に学習する,新しい表現型会話型TSモデルFCTalkerを提案する。
特に、fctalkerは、ワードおよび発話レベルのコンテキスト依存性を利用するための細粒度および粗粒度エンコーダを含む。
発話と対話履歴の間の単語レベルの依存関係をモデル化するために,対話BERTモデル上に細粒度対話エンコーダを構築する。
実験の結果,提案手法はすべてのベースラインを上回り,文脈的に適切な表現的音声を生成することがわかった。
ソースコードはhttps://github.com/walker-hyf/fctalker.com/。
関連論文リスト
- Emphasis Rendering for Conversational Text-to-Speech with Multi-modal Multi-scale Context Modeling [40.32021786228235]
Conversational Text-to-Speech (CTTS) は、会話設定内で適切なスタイルで発話を正確に表現することを目的としている。
ER-CTTSと呼ばれるCTTSモデルのための新しい強調レンダリング手法を提案する。
データ不足に対処するため、既存の会話データセット(DailyTalk)に強調強調アノテーションを作成します。
論文 参考訳(メタデータ) (2024-10-12T13:02:31Z) - Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation [16.724603503894166]
Style-Talkerは、高速音声ダイアログ生成のためのスタイルベースのTSモデルとともに、オーディオLLMを微調整する革新的なフレームワークである。
実験の結果,Style-Talkerは対話の自然さとコヒーレンスの両方の観点から,従来のカスケードと音声音声のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-08-13T04:35:11Z) - Generative Expressive Conversational Speech Synthesis [47.53014375797254]
会話音声合成(CSS)は,ユーザエージェントによる会話設定において,適切な発話スタイルでターゲット発話を表現することを目的としている。
GPT-Talkerと呼ばれる新しい生成表現型CSSシステムを提案する。
マルチターン対話履歴のマルチモーダル情報を離散トークンシーケンスに変換し、それらをシームレスに統合して総合的なユーザエージェント対話コンテキストを形成する。
論文 参考訳(メタデータ) (2024-07-31T10:02:21Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Acoustic Modeling for End-to-End Empathetic Dialogue Speech Synthesis
Using Linguistic and Prosodic Contexts of Dialogue History [38.65020349874135]
本稿では,エンド・ツー・エンド対話音声合成(DSS)モデルを提案する。
本モデルは,適切な対話コンテキストを予測するための言語的特徴と韻律的特徴の履歴によって条件付けられている。
共感的DSSモデルを効果的に訓練するために,1) 大規模音声コーパスで事前訓練された自己教師型学習モデル,2) 対話コンテキスト埋め込みによって予測される現在の発話の韻律埋め込みを用いたスタイル誘導学習,3) テキストと音声のモダリティを結合するクロスモーダルな注意,4) 発話のワイドなモデリングよりもきめ細かな韻律モデリングを実現するための文の埋め込みについて検討する。
論文 参考訳(メタデータ) (2022-06-16T09:47:25Z) - Towards Expressive Speaking Style Modelling with Hierarchical Context
Information for Mandarin Speech Synthesis [37.93814851450597]
文脈から発話スタイルをモデル化するための階層的枠組みを提案する。
より広い範囲の文脈情報を調べるために,階層型コンテキストエンコーダを提案する。
このエンコーダがスタイル表現をより良く学習できるように、我々は新しいトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2022-03-23T05:27:57Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z) - DialogBERT: Discourse-Aware Response Generation via Learning to Recover
and Rank Utterances [18.199473005335093]
本稿では,従来の PLM に基づく対話モデルを強化した対話応答生成モデルである DialogBERT を提案する。
発話間の談話レベルのコヒーレンスを効果的に把握するために,マスク付き発話回帰を含む2つの訓練目標を提案する。
3つのマルチターン会話データセットの実験により、我々のアプローチがベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-12-03T09:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。