論文の概要: CONCSS: Contrastive-based Context Comprehension for Dialogue-appropriate
Prosody in Conversational Speech Synthesis
- arxiv url: http://arxiv.org/abs/2312.10358v1
- Date: Sat, 16 Dec 2023 07:05:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 17:04:38.631718
- Title: CONCSS: Contrastive-based Context Comprehension for Dialogue-appropriate
Prosody in Conversational Speech Synthesis
- Title(参考訳): CONCSS:会話音声合成における対話に適した韻律のコントラストに基づく文脈理解
- Authors: Yayue Deng, Jinlong Xue, Yukang Jia, Qifei Li, Yichen Han, Fengping
Wang, Yingming Gao, Dengfeng Ke, Ya Li
- Abstract要約: 対照的な学習ベースのCSSフレームワークであるConCSSを紹介した。
このフレームワーク内では、CSS特有の革新的なプリテキストタスクを定義します。
また、文脈ベクトルの識別性を高めるために、負のサンプル増分のためのサンプリング戦略を導入する。
- 参考スコア(独自算出の注目度): 14.067804301298498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational speech synthesis (CSS) incorporates historical dialogue as
supplementary information with the aim of generating speech that has
dialogue-appropriate prosody. While previous methods have already delved into
enhancing context comprehension, context representation still lacks effective
representation capabilities and context-sensitive discriminability. In this
paper, we introduce a contrastive learning-based CSS framework, CONCSS. Within
this framework, we define an innovative pretext task specific to CSS that
enables the model to perform self-supervised learning on unlabeled
conversational datasets to boost the model's context understanding.
Additionally, we introduce a sampling strategy for negative sample augmentation
to enhance context vectors' discriminability. This is the first attempt to
integrate contrastive learning into CSS. We conduct ablation studies on
different contrastive learning strategies and comprehensive experiments in
comparison with prior CSS systems. Results demonstrate that the synthesized
speech from our proposed method exhibits more contextually appropriate and
sensitive prosody.
- Abstract(参考訳): 対話音声合成(CSS)は,対話に適した韻律を持つ音声を生成するために,過去の対話を補足情報として取り入れている。
従来の手法はすでに文脈理解の強化に取り組んできたが、文脈表現には効果的な表現能力と文脈に敏感な識別能力がない。
本稿では,コントラスト学習ベースのCSSフレームワークであるConCSSを紹介する。
このフレームワーク内では、モデルがラベルなしの会話型データセット上で自己教師あり学習を実行し、モデルのコンテキスト理解を促進するcss特有の革新的なプリテキストタスクを定義する。
さらに,文脈ベクトルの識別性を高めるために,負のサンプル拡張のためのサンプリング戦略を提案する。
これは、コントラスト学習をcssに統合する最初の試みである。
異なるコントラスト学習戦略と包括的実験に関するアブレーション研究を行い,従来のcssシステムとの比較を行った。
その結果,提案手法の合成音声は,文脈的に適切かつ敏感な韻律を示すことがわかった。
関連論文リスト
- Emphasis Rendering for Conversational Text-to-Speech with Multi-modal Multi-scale Context Modeling [40.32021786228235]
Conversational Text-to-Speech (CTTS) は、会話設定内で適切なスタイルで発話を正確に表現することを目的としている。
ER-CTTSと呼ばれるCTTSモデルのための新しい強調レンダリング手法を提案する。
データ不足に対処するため、既存の会話データセット(DailyTalk)に強調強調アノテーションを作成します。
論文 参考訳(メタデータ) (2024-10-12T13:02:31Z) - Generative Expressive Conversational Speech Synthesis [47.53014375797254]
会話音声合成(CSS)は,ユーザエージェントによる会話設定において,適切な発話スタイルでターゲット発話を表現することを目的としている。
GPT-Talkerと呼ばれる新しい生成表現型CSSシステムを提案する。
マルチターン対話履歴のマルチモーダル情報を離散トークンシーケンスに変換し、それらをシームレスに統合して総合的なユーザエージェント対話コンテキストを形成する。
論文 参考訳(メタデータ) (2024-07-31T10:02:21Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:20:20Z) - SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for
Task-Oriented Dialog Understanding [68.94808536012371]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから対話表現を学習する,木構造付き事前学習会話モデルを提案する。
提案手法は,7つのデータセットと4つの一般的な対話理解タスクからなるDialoGLUEベンチマークにおいて,最新の結果が得られる。
論文 参考訳(メタデータ) (2022-09-14T13:42:50Z) - DialAug: Mixing up Dialogue Contexts in Contrastive Learning for Robust
Conversational Modeling [3.3578533367912025]
本稿では,対話コンテキストの拡張バージョンを学習目的に組み込むフレームワークを提案する。
提案手法は,従来のデータ拡張手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-15T23:39:41Z) - Towards Expressive Speaking Style Modelling with Hierarchical Context
Information for Mandarin Speech Synthesis [37.93814851450597]
文脈から発話スタイルをモデル化するための階層的枠組みを提案する。
より広い範囲の文脈情報を調べるために,階層型コンテキストエンコーダを提案する。
このエンコーダがスタイル表現をより良く学習できるように、我々は新しいトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2022-03-23T05:27:57Z) - $C^3$: Compositional Counterfactual Contrastive Learning for
Video-grounded Dialogues [97.25466640240619]
映像対話システムの目的は、映像理解と対話理解を統合し、対話と映像コンテキストの両方に関連する応答を生成することである。
既存のアプローチのほとんどはディープラーニングモデルを採用しており、比較的小さなデータセットが利用可能であることを考えると、優れたパフォーマンスを実現している。
本稿では,映像対話における実例と反実例の対比学習を開発するために,合成対実的コントラスト学習の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-16T16:05:27Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。