論文の概要: Acoustic Modeling for End-to-End Empathetic Dialogue Speech Synthesis
Using Linguistic and Prosodic Contexts of Dialogue History
- arxiv url: http://arxiv.org/abs/2206.08039v1
- Date: Thu, 16 Jun 2022 09:47:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 14:53:31.978288
- Title: Acoustic Modeling for End-to-End Empathetic Dialogue Speech Synthesis
Using Linguistic and Prosodic Contexts of Dialogue History
- Title(参考訳): 対話履歴の言語的・韻律的文脈を用いた対話音声合成のための音響モデル
- Authors: Yuto Nishimura, Yuki Saito, Shinnosuke Takamichi, Kentaro Tachibana,
and Hiroshi Saruwatari
- Abstract要約: 本稿では,エンド・ツー・エンド対話音声合成(DSS)モデルを提案する。
本モデルは,適切な対話コンテキストを予測するための言語的特徴と韻律的特徴の履歴によって条件付けられている。
共感的DSSモデルを効果的に訓練するために,1) 大規模音声コーパスで事前訓練された自己教師型学習モデル,2) 対話コンテキスト埋め込みによって予測される現在の発話の韻律埋め込みを用いたスタイル誘導学習,3) テキストと音声のモダリティを結合するクロスモーダルな注意,4) 発話のワイドなモデリングよりもきめ細かな韻律モデリングを実現するための文の埋め込みについて検討する。
- 参考スコア(独自算出の注目度): 38.65020349874135
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose an end-to-end empathetic dialogue speech synthesis (DSS) model
that considers both the linguistic and prosodic contexts of dialogue history.
Empathy is the active attempt by humans to get inside the interlocutor in
dialogue, and empathetic DSS is a technology to implement this act in spoken
dialogue systems. Our model is conditioned by the history of linguistic and
prosody features for predicting appropriate dialogue context. As such, it can
be regarded as an extension of the conventional linguistic-feature-based
dialogue history modeling. To train the empathetic DSS model effectively, we
investigate 1) a self-supervised learning model pretrained with large speech
corpora, 2) a style-guided training using a prosody embedding of the current
utterance to be predicted by the dialogue context embedding, 3) a cross-modal
attention to combine text and speech modalities, and 4) a sentence-wise
embedding to achieve fine-grained prosody modeling rather than utterance-wise
modeling. The evaluation results demonstrate that 1) simply considering
prosodic contexts of the dialogue history does not improve the quality of
speech in empathetic DSS and 2) introducing style-guided training and
sentence-wise embedding modeling achieves higher speech quality than that by
the conventional method.
- Abstract(参考訳): 本稿では,対話履歴の言語的文脈と韻律的文脈の両方を考慮した,エンドツーエンドの共感的対話音声合成(DSS)モデルを提案する。
共感は対話においてインターロケータの中に入ろうとする人間の積極的な試みであり、共感DSSは音声対話システムでこの行為を実行するための技術である。
本モデルは,適切な対話コンテキストを予測するための言語的特徴と韻律的特徴の履歴によって条件付けられている。
このように、従来の言語機能に基づく対話履歴モデリングの拡張と見なすことができる。
共感dssモデルを効果的に訓練するために
1)大規模音声コーパスを用いた自己教師型学習モデル
2)対話コンテキスト埋め込みによって予測される現在発話の韻律埋め込みを用いたスタイル指導訓練
3)テキストと音声のモダリティを組み合わせるための横断的注意,
4) 文の埋め込みにより, 発話のモデリングではなく, きめ細かい韻律モデリングを実現する。
評価結果は
1)会話履歴の韻律的文脈を単純に考慮しても,共感dssの発話品質は向上しない。
2) スタイル誘導学習と文内埋め込みモデルの導入は, 従来の方法よりも高い音声品質を実現する。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Towards Joint Modeling of Dialogue Response and Speech Synthesis based
on Large Language Model [8.180382743037082]
本稿では,AI音声対話システムの構築の可能性について考察する。
論文 参考訳(メタデータ) (2023-09-20T01:48:27Z) - FutureTOD: Teaching Future Knowledge to Pre-trained Language Model for
Task-Oriented Dialogue [20.79359173822053]
本稿では,対話前学習モデルFutureTODを提案する。
我々の直感は、良い対話表現はどちらも局所的な文脈情報を学び、将来の情報を予測することである。
論文 参考訳(メタデータ) (2023-06-17T10:40:07Z) - STRUDEL: Structured Dialogue Summarization for Dialogue Comprehension [42.57581945778631]
抽象的な対話要約は、自然言語処理における重要なスタンドアロンタスクとみなされてきた。
本稿では,新たな対話要約タスクであるSTRUctured DiaLoguE Summarizationを提案する。
変換器エンコーダ言語モデルの対話理解性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-24T04:39:54Z) - FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:20:20Z) - End-to-End Text-to-Speech Based on Latent Representation of Speaking
Styles Using Spontaneous Dialogue [19.149834552175076]
本研究の目的は,人間の対話によく似たテキスト音声(TTS)を実現することである。
まず、実際の自然対話を記録し、書き起こす。
提案した対話TSは、第1段階、変分オートエンコーダ(VAE)-VITSまたはガウス混合変分オートエンコーダ(GMVAE)-VITSの2段階で訓練される。
論文 参考訳(メタデータ) (2022-06-24T02:32:12Z) - Advances in Multi-turn Dialogue Comprehension: A Survey [51.215629336320305]
自然言語を理解し、人間と対話するための訓練機械は、人工知能の解明と本質的なタスクである。
本稿では,対話理解タスクにおける対話モデリングの技術的視点から,過去の手法を概観する。
さらに,対話シナリオにおけるPrLMの強化に使用される対話関連事前学習手法を分類する。
論文 参考訳(メタデータ) (2021-10-11T03:52:37Z) - Advances in Multi-turn Dialogue Comprehension: A Survey [51.215629336320305]
対話モデリングの観点から,従来の手法を検討した。
対話理解タスクで広く使用されている対話モデリングの3つの典型的なパターンについて議論します。
論文 参考訳(メタデータ) (2021-03-04T15:50:17Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。