論文の概要: Retrieval-Augmented Dialogue Knowledge Aggregation for Expressive Conversational Speech Synthesis
- arxiv url: http://arxiv.org/abs/2501.06467v1
- Date: Sat, 11 Jan 2025 07:43:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:26:05.967016
- Title: Retrieval-Augmented Dialogue Knowledge Aggregation for Expressive Conversational Speech Synthesis
- Title(参考訳): 表現型会話音声合成のための検索強化対話知識集約
- Authors: Rui Liu, Zhenqi Jia, Feilong Bao, Haizhou Li,
- Abstract要約: 会話音声合成 (CSS) は, 現在の対話 (CD) の歴史を, 会話スタイルに整合した表現的音声合成への参照として捉えることを目的としている。
CDとは異なり、ストアド・ダイアログ(SD)はユーザーとエージェントの相互作用の初期段階から保存されたダイアログの断片を含んでいる。
この知識は,共感的フィードバックを生成する表現的会話音声の合成を可能にする上で重要な役割を担っている。
- 参考スコア(独自算出の注目度): 39.25088200618052
- License:
- Abstract: Conversational speech synthesis (CSS) aims to take the current dialogue (CD) history as a reference to synthesize expressive speech that aligns with the conversational style. Unlike CD, stored dialogue (SD) contains preserved dialogue fragments from earlier stages of user-agent interaction, which include style expression knowledge relevant to scenarios similar to those in CD. Note that this knowledge plays a significant role in enabling the agent to synthesize expressive conversational speech that generates empathetic feedback. However, prior research has overlooked this aspect. To address this issue, we propose a novel Retrieval-Augmented Dialogue Knowledge Aggregation scheme for expressive CSS, termed RADKA-CSS, which includes three main components: 1) To effectively retrieve dialogues from SD that are similar to CD in terms of both semantic and style. First, we build a stored dialogue semantic-style database (SDSSD) which includes the text and audio samples. Then, we design a multi-attribute retrieval scheme to match the dialogue semantic and style vectors of the CD with the stored dialogue semantic and style vectors in the SDSSD, retrieving the most similar dialogues. 2) To effectively utilize the style knowledge from CD and SD, we propose adopting the multi-granularity graph structure to encode the dialogue and introducing a multi-source style knowledge aggregation mechanism. 3) Finally, the aggregated style knowledge are fed into the speech synthesizer to help the agent synthesize expressive speech that aligns with the conversational style. We conducted a comprehensive and in-depth experiment based on the DailyTalk dataset, which is a benchmarking dataset for the CSS task. Both objective and subjective evaluations demonstrate that RADKA-CSS outperforms baseline models in expressiveness rendering. Code and audio samples can be found at: https://github.com/Coder-jzq/RADKA-CSS.
- Abstract(参考訳): 会話音声合成 (CSS) は, 現在の対話 (CD) の歴史を, 会話スタイルに整合した表現的音声合成への参照として捉えることを目的としている。
CDとは異なり、ストアド・ダイアログ(SD)は、ユーザとエージェントの相互作用の初期段階から保存された対話の断片を含んでおり、CDと似たシナリオに関連するスタイル表現知識を含んでいる。
この知識は,共感的フィードバックを生成する表現的会話音声の合成を可能にする上で重要な役割を担っている。
しかし、以前の研究はこの側面を見落としていた。
この問題に対処するために, RADKA-CSSと呼ばれる, 3つの主要コンポーネントを含む表現型CSSのための検索型対話知識集約方式を提案する。
1) 意味とスタイルの両面でCDに類似したSDからの対話を効果的に検索する。
まず,テキストと音声のサンプルを含む対話型セマンティックデータベース(SDSSD)を構築する。
そこで我々は,CDの対話意味とスタイルベクトルをSDSSDに格納した対話意味とスタイルベクトルに一致させる多属性検索方式を設計し,最も類似した対話を検索する。
2)CDとSDのスタイル知識を効果的に活用するために,対話を符号化する多粒度グラフ構造を採用し,多ソース方式の知識集約機構を導入することを提案する。
3)最後に、集約されたスタイル知識を音声合成装置に入力し、エージェントが会話スタイルに整合した表現的音声を合成するのを助ける。
私たちは、CSSタスクのベンチマークデータセットであるDailyTalkデータセットに基づいて、包括的で詳細な実験を行った。
客観的および主観的評価は、RADKA-CSSが表現性レンダリングにおいてベースラインモデルより優れていることを示す。
コードとオーディオサンプルは、https://github.com/Coder-jzq/RADKA-CSSで見ることができる。
関連論文リスト
- Generative Expressive Conversational Speech Synthesis [47.53014375797254]
会話音声合成(CSS)は,ユーザエージェントによる会話設定において,適切な発話スタイルでターゲット発話を表現することを目的としている。
GPT-Talkerと呼ばれる新しい生成表現型CSSシステムを提案する。
マルチターン対話履歴のマルチモーダル情報を離散トークンシーケンスに変換し、それらをシームレスに統合して総合的なユーザエージェント対話コンテキストを形成する。
論文 参考訳(メタデータ) (2024-07-31T10:02:21Z) - CONCSS: Contrastive-based Context Comprehension for Dialogue-appropriate
Prosody in Conversational Speech Synthesis [14.067804301298498]
対照的な学習ベースのCSSフレームワークであるConCSSを紹介した。
このフレームワーク内では、CSS特有の革新的なプリテキストタスクを定義します。
また、文脈ベクトルの識別性を高めるために、負のサンプル増分のためのサンプリング戦略を導入する。
論文 参考訳(メタデータ) (2023-12-16T07:05:16Z) - Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - Unsupervised Dialogue Topic Segmentation with Topic-aware Utterance
Representation [51.22712675266523]
対話トピック(DTS)は、様々な対話モデリングタスクにおいて重要な役割を果たす。
本稿では,ラベルなし対話データからトピック対応発話表現を学習する,教師なしDSSフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-04T11:35:23Z) - Hierarchical Dialogue Understanding with Special Tokens and Turn-level
Attention [19.03781524017955]
単純だが効果的な階層的対話理解モデルHiDialogを提案する。
まず,複数の特別なトークンを対話に挿入し,階層的にターン埋め込みを学習するためのターンレベルアテンションを提案する。
我々は,対話関係抽出,対話感情認識,対話行為分類など,対話理解タスクにおけるモデルの評価を行った。
論文 参考訳(メタデータ) (2023-04-29T13:53:48Z) - SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for
Task-Oriented Dialog Understanding [68.94808536012371]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから対話表現を学習する,木構造付き事前学習会話モデルを提案する。
提案手法は,7つのデータセットと4つの一般的な対話理解タスクからなるDialoGLUEベンチマークにおいて,最新の結果が得られる。
論文 参考訳(メタデータ) (2022-09-14T13:42:50Z) - Graph Based Network with Contextualized Representations of Turns in
Dialogue [0.0]
対話に基づく関係抽出(RE)は、対話に現れる2つの引数間の関係を抽出することを目的としている。
本稿では,対話の理解方法に着目したTUCORE-GCN(TUrn Context aware Graph Convolutional Network)を提案する。
論文 参考訳(メタデータ) (2021-09-09T03:09:08Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。