論文の概要: Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling
- arxiv url: http://arxiv.org/abs/2312.11947v1
- Date: Tue, 19 Dec 2023 08:47:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 16:24:48.752371
- Title: Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling
- Title(参考訳): 不均一グラフに基づく文脈モデルを用いた会話音声合成のための感情表現
- Authors: Rui Liu, Yifan Hu, Yi Ren, Xiang Yin, Haizhou Li
- Abstract要約: 会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
- 参考スコア(独自算出の注目度): 50.99252242917458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational Speech Synthesis (CSS) aims to accurately express an utterance
with the appropriate prosody and emotional inflection within a conversational
setting. While recognising the significance of CSS task, the prior studies have
not thoroughly investigated the emotional expressiveness problems due to the
scarcity of emotional conversational datasets and the difficulty of stateful
emotion modeling. In this paper, we propose a novel emotional CSS model, termed
ECSS, that includes two main components: 1) to enhance emotion understanding,
we introduce a heterogeneous graph-based emotional context modeling mechanism,
which takes the multi-source dialogue history as input to model the dialogue
context and learn the emotion cues from the context; 2) to achieve emotion
rendering, we employ a contrastive learning-based emotion renderer module to
infer the accurate emotion style for the target utterance. To address the issue
of data scarcity, we meticulously create emotional labels in terms of category
and intensity, and annotate additional emotional information on the existing
conversational dataset (DailyTalk). Both objective and subjective evaluations
suggest that our model outperforms the baseline models in understanding and
rendering emotions. These evaluations also underscore the importance of
comprehensive emotional annotations. Code and audio samples can be found at:
https://github.com/walker-hyf/ECSS.
- Abstract(参考訳): 会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
cssタスクの重要性を認識しつつ、感情対話型データセットの不足やステートフルな感情モデリングの難しさなど、感情表現性の問題を十分に検討していない。
本稿では,ecssと呼ばれる,2つの主成分を含む新しい感情的cssモデルを提案する。
1)感情理解を強化するために,多元対話履歴を入力とし,対話コンテキストをモデル化し,文脈から感情の手がかりを学習する,ヘテロジニアスグラフに基づく感情コンテキストモデリング機構を導入する。
2) 感情表現を実現するために, 目標発話の正確な感情スタイルを推定するために, コントラスト学習に基づく感情描画モジュールを用いる。
データ不足の問題に対処するため、カテゴリと強度の観点から感情ラベルを慎重に作成し、既存の会話データセット(DailyTalk)に付加的な感情情報を注釈する。
主観的評価と主観的評価の両方は、我々のモデルが感情の理解と表現においてベースラインモデルより優れていることを示唆している。
これらの評価は、包括的な感情的アノテーションの重要性も強調する。
コードとオーディオサンプルは、https://github.com/walker-hyf/ecssで見ることができる。
関連論文リスト
- EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector [26.656512860918262]
EmoSphere++は感情制御可能なゼロショットTSモデルで、感情のスタイルや強度をコントロールでき、自然な人間の音声に似ています。
人間のアノテーションを使わずに感情のスタイルや強度をモデル化する,感情適応型球面ベクトルを新たに導入する。
条件付きフローマッチングに基づくデコーダを用いて,数ステップのサンプリングで高品質で表現力のある感情的TSを実現する。
論文 参考訳(メタデータ) (2024-11-04T21:33:56Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - In-the-wild Speech Emotion Conversion Using Disentangled Self-Supervised
Representations and Neural Vocoder-based Resynthesis [15.16865739526702]
本稿では,自己教師ネットワークを用いて発話の語彙的,話者的,感情的な内容を切り離す手法を提案する。
次に、HiFiGANボコーダを用いて、不整合表現をターゲット感情の音声信号に再合成する。
その結果,提案手法は入力音声の感情内容に適度に適応し,対象感情に対して自然な音声を合成できることがわかった。
論文 参考訳(メタデータ) (2023-06-02T21:02:51Z) - Chat-Capsule: A Hierarchical Capsule for Dialog-level Emotion Analysis [70.98130990040228]
本稿では,発話レベルと対話レベルの両方の感情とその相互関係をモデル化したコンテキストベースの階層的注意カプセル(Chat-Capsule)モデルを提案する。
Eコマースプラットフォームの顧客サポートから収集したダイアログデータセットでは,ユーザの満足度や感情曲線のカテゴリも予測できる。
論文 参考訳(メタデータ) (2022-03-23T08:04:30Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Contrast and Generation Make BART a Good Dialogue Emotion Recognizer [38.18867570050835]
対話型感情認識において、話者依存との長期的文脈的感情関係が重要な役割を担っている。
教師付きコントラスト学習を用いて、異なる感情を相互に排他的に区別し、類似した感情をよりよく識別する。
我々は、文脈情報を扱うモデルの能力を高めるために補助応答生成タスクを利用する。
論文 参考訳(メタデータ) (2021-12-21T13:38:00Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z) - Infusing Multi-Source Knowledge with Heterogeneous Graph Neural Network
for Emotional Conversation Generation [25.808037796936766]
実世界の会話では,マルチソース情報から感情を直感的に知覚する。
感情的会話生成のための異種グラフモデルを提案する。
実験結果は,本モデルがマルチソース知識から感情を効果的に知覚できることを示した。
論文 参考訳(メタデータ) (2020-12-09T06:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。