論文の概要: Generative Expressive Conversational Speech Synthesis
- arxiv url: http://arxiv.org/abs/2407.21491v1
- Date: Wed, 31 Jul 2024 10:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 18:12:32.105005
- Title: Generative Expressive Conversational Speech Synthesis
- Title(参考訳): 生成的表現型会話音声合成
- Authors: Rui Liu, Yifan Hu, Ren Yi, Yin Xiang, Haizhou Li,
- Abstract要約: 会話音声合成(CSS)は,ユーザエージェントによる会話設定において,適切な発話スタイルでターゲット発話を表現することを目的としている。
GPT-Talkerと呼ばれる新しい生成表現型CSSシステムを提案する。
マルチターン対話履歴のマルチモーダル情報を離散トークンシーケンスに変換し、それらをシームレスに統合して総合的なユーザエージェント対話コンテキストを形成する。
- 参考スコア(独自算出の注目度): 37.0455489513392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational Speech Synthesis (CSS) aims to express a target utterance with the proper speaking style in a user-agent conversation setting. Existing CSS methods employ effective multi-modal context modeling techniques to achieve empathy understanding and expression. However, they often need to design complex network architectures and meticulously optimize the modules within them. In addition, due to the limitations of small-scale datasets containing scripted recording styles, they often fail to simulate real natural conversational styles. To address the above issues, we propose a novel generative expressive CSS system, termed GPT-Talker.We transform the multimodal information of the multi-turn dialogue history into discrete token sequences and seamlessly integrate them to form a comprehensive user-agent dialogue context. Leveraging the power of GPT, we predict the token sequence, that includes both semantic and style knowledge, of response for the agent. After that, the expressive conversational speech is synthesized by the conversation-enriched VITS to deliver feedback to the user.Furthermore, we propose a large-scale Natural CSS Dataset called NCSSD, that includes both naturally recorded conversational speech in improvised styles and dialogues extracted from TV shows. It encompasses both Chinese and English languages, with a total duration of 236 hours.We conducted comprehensive experiments on the reliability of the NCSSD and the effectiveness of our GPT-Talker. Both subjective and objective evaluations demonstrate that our model outperforms other state-of-the-art CSS systems significantly in terms of naturalness and expressiveness. The Code, Dataset, and Pre-trained Model are available at: https://github.com/AI-S2-Lab/GPT-Talker.
- Abstract(参考訳): 会話音声合成(CSS)は,ユーザエージェントによる会話設定において,適切な発話スタイルでターゲット発話を表現することを目的としている。
既存のCSSメソッドでは、共感理解と表現を実現するために効果的なマルチモーダルコンテキストモデリング技術を採用している。
しかし、複雑なネットワークアーキテクチャを設計し、内部のモジュールを慎重に最適化する必要があることが多い。
さらに、スクリプティングされた記録スタイルを含む小規模なデータセットの制限のため、実際の自然な会話スタイルをシミュレートすることができないことが多い。
上記の課題に対処するため,GPT-Talkerと呼ばれる新しい生成表現型CSSシステムを提案し,マルチターン対話履歴のマルチモーダル情報を離散トークンシーケンスに変換し,それらをシームレスに統合し,包括的ユーザエージェント対話コンテキストを形成する。
GPTの力を利用して、エージェントに対する応答のセマンティック知識とスタイル知識の両方を含むトークンシーケンスを予測する。
その後、会話に富んだVITSを用いて表現的な会話音声を合成し、ユーザへのフィードバックを提供するとともに、即興スタイルの会話音声とテレビ番組から抽出した対話文の両方を含むNCSSDと呼ばれる大規模自然CSSデータセットを提案する。
中国語と英語を合わせて236時間, NCSSDの信頼性とGPT-Talkerの有効性について総合的な実験を行った。
主観的および客観的評価は,本モデルが他の最先端CSSシステムよりも自然性や表現性に優れていたことを示す。
Code、Dataset、Pre-trained Modelは、https://github.com/AI-S2-Lab/GPT-Talker.comで入手できる。
関連論文リスト
- Parameter-Efficient Conversational Recommender System as a Language
Processing Task [52.47087212618396]
会話レコメンデータシステム(CRS)は,自然言語会話を通じてユーザの嗜好を喚起することで,ユーザに対して関連項目を推薦することを目的としている。
先行作業では、アイテムのセマンティック情報、対話生成のための言語モデル、関連する項目のランク付けのためのレコメンデーションモジュールとして、外部知識グラフを利用することが多い。
本稿では、自然言語の項目を表現し、CRSを自然言語処理タスクとして定式化する。
論文 参考訳(メタデータ) (2024-01-25T14:07:34Z) - CONCSS: Contrastive-based Context Comprehension for Dialogue-appropriate
Prosody in Conversational Speech Synthesis [14.067804301298498]
対照的な学習ベースのCSSフレームワークであるConCSSを紹介した。
このフレームワーク内では、CSS特有の革新的なプリテキストタスクを定義します。
また、文脈ベクトルの識別性を高めるために、負のサンプル増分のためのサンプリング戦略を導入する。
論文 参考訳(メタデータ) (2023-12-16T07:05:16Z) - Conversational Speech Recognition by Learning Audio-textual Cross-modal Contextual Representation [27.926862030684926]
クロスモーダルな会話表現を備えたコンフォーマーエンコーダデコーダモデルを拡張した会話型ASRシステムを提案する。
提案手法は、特殊エンコーダとモーダルレベルのマスク入力により、事前訓練された音声とテキストモデルを組み合わせる。
クロスモーダル表現と会話表現の両方をデコーダに導入することで、我々のモデルは情報損失のない長い文よりもコンテキストを保ちます。
論文 参考訳(メタデータ) (2023-10-22T11:57:33Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Contextual Dynamic Prompting for Response Generation in Task-oriented
Dialog Systems [8.419582942080927]
応答生成はタスク指向対話システムにおいて重要なコンポーネントの1つである。
本稿では,対話コンテキストからプロンプトを学習するテキスト動的プロンプトを実現する手法を提案する。
文脈的動的プロンプトは,3つの絶対点で構造化されたテキスト合成スコア citemehri-etal 2019 を用いて応答生成を改善することを示す。
論文 参考訳(メタデータ) (2023-01-30T20:26:02Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:20:20Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z) - A Few-Shot Semantic Parser for Wizard-of-Oz Dialogues with the Precise
ThingTalk Representation [5.56536459714557]
ウィザード・オブ・オズ(WOZ)会話のための効果的な意味論を構築しようとする以前の試みは、高品質で手動の注釈付きトレーニングセットを取得するのが困難であった。
本稿では,WOZ会話における正確な対話状態を予測できる新しい対話表現とサンプル効率の手法を提案する。
論文 参考訳(メタデータ) (2020-09-16T22:52:46Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。