論文の概要: Emphasis Rendering for Conversational Text-to-Speech with Multi-modal Multi-scale Context Modeling
- arxiv url: http://arxiv.org/abs/2410.09524v1
- Date: Sat, 12 Oct 2024 13:02:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 14:04:51.716316
- Title: Emphasis Rendering for Conversational Text-to-Speech with Multi-modal Multi-scale Context Modeling
- Title(参考訳): マルチモーダルなマルチスケールコンテキストモデリングによる会話テキスト音声の強調レンダリング
- Authors: Rui Liu, Zhenqi Jia, Jie Yang, Yifan Hu, Haizhou Li,
- Abstract要約: Conversational Text-to-Speech (CTTS) は、会話設定内で適切なスタイルで発話を正確に表現することを目的としている。
ER-CTTSと呼ばれるCTTSモデルのための新しい強調レンダリング手法を提案する。
データ不足に対処するため、既存の会話データセット(DailyTalk)に強調強調アノテーションを作成します。
- 参考スコア(独自算出の注目度): 40.32021786228235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational Text-to-Speech (CTTS) aims to accurately express an utterance with the appropriate style within a conversational setting, which attracts more attention nowadays. While recognizing the significance of the CTTS task, prior studies have not thoroughly investigated speech emphasis expression, which is essential for conveying the underlying intention and attitude in human-machine interaction scenarios, due to the scarcity of conversational emphasis datasets and the difficulty in context understanding. In this paper, we propose a novel Emphasis Rendering scheme for the CTTS model, termed ER-CTTS, that includes two main components: 1) we simultaneously take into account textual and acoustic contexts, with both global and local semantic modeling to understand the conversation context comprehensively; 2) we deeply integrate multi-modal and multi-scale context to learn the influence of context on the emphasis expression of the current utterance. Finally, the inferred emphasis feature is fed into the neural speech synthesizer to generate conversational speech. To address data scarcity, we create emphasis intensity annotations on the existing conversational dataset (DailyTalk). Both objective and subjective evaluations suggest that our model outperforms the baseline models in emphasis rendering within a conversational setting. The code and audio samples are available at https://github.com/CodeStoreTTS/ER-CTTS.
- Abstract(参考訳): 会話テキスト音声(CTTS)は,会話環境において適切なスタイルで発話を正確に表現することを目的としており,近年注目されている。
CTTSタスクの重要性を認識しつつ、従来の研究では、会話強調データセットの不足と文脈理解の難しさにより、人間と機械の相互作用シナリオにおける基礎となる意図と態度を伝えるのに不可欠な、音声強調表現を徹底的に研究していない。
本稿では, ER-CTTSと呼ばれるCTTSモデルのための新しい強調レンダリング手法を提案する。
1)会話の文脈を包括的に理解するために,グローバル・ローカル・セマンティック・モデリングとテキスト・アコースティック・コンテキストを同時に考慮する。
2) マルチモーダル・マルチスケールの文脈を深く統合し, 現在の発話の強調表現に対する文脈の影響を学習する。
最後に、推論強調機能をニューラル音声合成装置に入力し、会話音声を生成する。
データ不足に対処するため、既存の会話データセット(DailyTalk)に強調強調アノテーションを作成します。
主観的評価と主観的評価の両方により,本モデルは会話環境下での強調レンダリングにおいて,ベースラインモデルよりも優れていることが示唆された。
コードとオーディオサンプルはhttps://github.com/CodeStoreTTS/ER-CTTSで公開されている。
関連論文リスト
- Conversational Speech Recognition by Learning Audio-textual Cross-modal Contextual Representation [27.926862030684926]
クロスモーダルな会話表現を備えたコンフォーマーエンコーダデコーダモデルを拡張した会話型ASRシステムを提案する。
提案手法は、特殊エンコーダとモーダルレベルのマスク入力により、事前訓練された音声とテキストモデルを組み合わせる。
クロスモーダル表現と会話表現の両方をデコーダに導入することで、我々のモデルは情報損失のない長い文よりもコンテキストを保ちます。
論文 参考訳(メタデータ) (2023-10-22T11:57:33Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - M2-CTTS: End-to-End Multi-scale Multi-modal Conversational
Text-to-Speech Synthesis [38.85861825252267]
M2-CTTSは、歴史的会話を包括的に活用し、韻律表現を強化することを目的としている。
我々は、粗粒度と細粒度の両方のモデリングにより、テキストコンテキストモジュールと音響コンテキストモジュールを設計する。
論文 参考訳(メタデータ) (2023-05-03T16:59:38Z) - Contextual Expressive Text-to-Speech [25.050361896378533]
我々は新しいタスク設定 Contextual Text-to-speech (CTTS) を導入する。
CTTSの主な考え方は、人がどのように話すかは、通常、コンテキストをテキストとして表現できる特定のコンテキストに依存する、というものである。
合成データセットを構築し、与えられた文脈に基づいて高品質な表現音声を生成するための効果的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-11-26T12:06:21Z) - FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:20:20Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。