論文の概要: Multimodal Fine-grained Context Interaction Graph Modeling for Conversational Speech Synthesis
- arxiv url: http://arxiv.org/abs/2509.06074v1
- Date: Sun, 07 Sep 2025 14:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.846921
- Title: Multimodal Fine-grained Context Interaction Graph Modeling for Conversational Speech Synthesis
- Title(参考訳): 会話音声合成のためのマルチモーダル微粒コンテキスト相互作用グラフモデリング
- Authors: Zhenqi Jia, Rui Liu, Berrak Sisman, Haizhou Li,
- Abstract要約: 会話音声合成(CSS)は、自然な韻律による音声を生成することを目的としている。
既存の手法は、きめ細かいセマンティックおよび韻律的相互作用モデリングを見落としている。
MFCIG-CSSは,マルチモーダル微粒なコンテキスト相互作用グラフに基づくCSSシステムである。
- 参考スコア(独自算出の注目度): 34.487544170634884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational Speech Synthesis (CSS) aims to generate speech with natural prosody by understanding the multimodal dialogue history (MDH). The latest work predicts the accurate prosody expression of the target utterance by modeling the utterance-level interaction characteristics of MDH and the target utterance. However, MDH contains fine-grained semantic and prosody knowledge at the word level. Existing methods overlook the fine-grained semantic and prosodic interaction modeling. To address this gap, we propose MFCIG-CSS, a novel Multimodal Fine-grained Context Interaction Graph-based CSS system. Our approach constructs two specialized multimodal fine-grained dialogue interaction graphs: a semantic interaction graph and a prosody interaction graph. These two interaction graphs effectively encode interactions between word-level semantics, prosody, and their influence on subsequent utterances in MDH. The encoded interaction features are then leveraged to enhance synthesized speech with natural conversational prosody. Experiments on the DailyTalk dataset demonstrate that MFCIG-CSS outperforms all baseline models in terms of prosodic expressiveness. Code and speech samples are available at https://github.com/AI-S2-Lab/MFCIG-CSS.
- Abstract(参考訳): 会話音声合成(CSS)は,マルチモーダル対話履歴(MDH)を理解することによって,自然な韻律による音声を生成することを目的としている。
MDHとターゲット発話の発話レベル相互作用特性をモデル化することにより,ターゲット発話の正確な韻律表現を予測する。
しかし、MDHは単語レベルでの詳細な意味と韻律の知識を含んでいる。
既存の手法は、きめ細かいセマンティックおよび韻律的相互作用モデリングを見落としている。
このギャップに対処するために,MFCIG-CSSを提案する。
提案手法は,意味的相互作用グラフと韻律的相互作用グラフの2つの特殊多モーダルきめ細かな対話グラフを構築する。
これら2つの相互作用グラフは、単語レベルの意味論、韻律、およびその後のMDH発話への影響を効果的にエンコードする。
次に、符号化された対話機能を利用して、自然な会話の韻律による合成音声を強化する。
DailyTalkデータセットの実験では、MFCIG-CSSは韻律表現性の観点から、すべてのベースラインモデルを上回っている。
コードと音声サンプルはhttps://github.com/AI-S2-Lab/MFCIG-CSSで入手できる。
関連論文リスト
- DiffCSS: Diverse and Expressive Conversational Speech Synthesis with Diffusion Models [19.259178812147287]
会話音声合成(CSS)は,文脈的に適切な音声と表現的音声の両方を合成することを目的としている。
DiffCSSは拡散モデルとLMベースのTSバックボーンを利用して,多様な,表現的で,文脈的に一貫性のある音声を生成する,革新的なCSSフレームワークである。
DiffCSSから合成した音声は既存のCSSシステムよりも多様で、文脈的に一貫性があり、表現力が高いことを示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-02-27T09:53:48Z) - Intra- and Inter-modal Context Interaction Modeling for Conversational Speech Synthesis [3.391256280235937]
会話音声合成(CSS)は,多モーダル対話履歴(MDH)を効果的に活用し,ターゲット発話に適切な会話韻律を用いた音声を生成することを目的としている。
CSSの主な課題は、MDHとターゲット発話の間のインタラクションをモデル化することである。
モーダル内およびモーダル間対話型CSSシステム(III-CSS)を提案する。
論文 参考訳(メタデータ) (2024-12-25T01:35:59Z) - Generative Expressive Conversational Speech Synthesis [47.53014375797254]
会話音声合成(CSS)は,ユーザエージェントによる会話設定において,適切な発話スタイルでターゲット発話を表現することを目的としている。
GPT-Talkerと呼ばれる新しい生成表現型CSSシステムを提案する。
マルチターン対話履歴のマルチモーダル情報を離散トークンシーケンスに変換し、それらをシームレスに統合して総合的なユーザエージェント対話コンテキストを形成する。
論文 参考訳(メタデータ) (2024-07-31T10:02:21Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:20:20Z) - Discovering Dialog Structure Graph for Open-Domain Dialog Generation [51.29286279366361]
chitchat corporaの対話構造を無監督で発見します。
次に、下流システムでのダイアログ生成を容易にするために利用します。
本稿では,グラフニューラルネットワーク(DVAE-GNN)を用いた離散変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2020-12-31T10:58:37Z) - Dialogue Relation Extraction with Document-level Heterogeneous Graph
Attention Networks [21.409522845011907]
対話関係抽出(DRE)は,多人数対話で言及される2つのエンティティ間の関係を検出することを目的としている。
本稿では,グラフが有意に接続された話者,エンティティ,エンティティタイプ,発話ノードを含むDREのためのグラフ注意ネットワーク方式を提案する。
このグラフに基づくアプローチは,対話における異なるエンティティペア間の関係を効果的に捉え,最先端のアプローチよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-09-10T18:51:48Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。