Fugu-MT 論文翻訳(概要): Generative Expressive Conversational Speech Synthesis

論文の概要: Generative Expressive Conversational Speech Synthesis

arxiv url: http://arxiv.org/abs/2407.21491v1
Date: Wed, 31 Jul 2024 10:02:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-01 18:12:32.105005
Title: Generative Expressive Conversational Speech Synthesis
Title（参考訳）: 生成的表現型会話音声合成
Authors: Rui Liu, Yifan Hu, Ren Yi, Yin Xiang, Haizhou Li,
Abstract要約: 会話音声合成(CSS)は,ユーザエージェントによる会話設定において,適切な発話スタイルでターゲット発話を表現することを目的としている。 GPT-Talkerと呼ばれる新しい生成表現型CSSシステムを提案する。マルチターン対話履歴のマルチモーダル情報を離散トークンシーケンスに変換し、それらをシームレスに統合して総合的なユーザエージェント対話コンテキストを形成する。
参考スコア（独自算出の注目度）: 37.0455489513392
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Conversational Speech Synthesis (CSS) aims to express a target utterance with the proper speaking style in a user-agent conversation setting. Existing CSS methods employ effective multi-modal context modeling techniques to achieve empathy understanding and expression. However, they often need to design complex network architectures and meticulously optimize the modules within them. In addition, due to the limitations of small-scale datasets containing scripted recording styles, they often fail to simulate real natural conversational styles. To address the above issues, we propose a novel generative expressive CSS system, termed GPT-Talker.We transform the multimodal information of the multi-turn dialogue history into discrete token sequences and seamlessly integrate them to form a comprehensive user-agent dialogue context. Leveraging the power of GPT, we predict the token sequence, that includes both semantic and style knowledge, of response for the agent. After that, the expressive conversational speech is synthesized by the conversation-enriched VITS to deliver feedback to the user.Furthermore, we propose a large-scale Natural CSS Dataset called NCSSD, that includes both naturally recorded conversational speech in improvised styles and dialogues extracted from TV shows. It encompasses both Chinese and English languages, with a total duration of 236 hours.We conducted comprehensive experiments on the reliability of the NCSSD and the effectiveness of our GPT-Talker. Both subjective and objective evaluations demonstrate that our model outperforms other state-of-the-art CSS systems significantly in terms of naturalness and expressiveness. The Code, Dataset, and Pre-trained Model are available at: https://github.com/AI-S2-Lab/GPT-Talker.
Abstract（参考訳）: 会話音声合成(CSS)は,ユーザエージェントによる会話設定において,適切な発話スタイルでターゲット発話を表現することを目的としている。既存のCSSメソッドでは、共感理解と表現を実現するために効果的なマルチモーダルコンテキストモデリング技術を採用している。しかし、複雑なネットワークアーキテクチャを設計し、内部のモジュールを慎重に最適化する必要があることが多い。さらに、スクリプティングされた記録スタイルを含む小規模なデータセットの制限のため、実際の自然な会話スタイルをシミュレートすることができないことが多い。上記の課題に対処するため,GPT-Talkerと呼ばれる新しい生成表現型CSSシステムを提案し,マルチターン対話履歴のマルチモーダル情報を離散トークンシーケンスに変換し,それらをシームレスに統合し,包括的ユーザエージェント対話コンテキストを形成する。 GPTの力を利用して、エージェントに対する応答のセマンティック知識とスタイル知識の両方を含むトークンシーケンスを予測する。その後、会話に富んだVITSを用いて表現的な会話音声を合成し、ユーザへのフィードバックを提供するとともに、即興スタイルの会話音声とテレビ番組から抽出した対話文の両方を含むNCSSDと呼ばれる大規模自然CSSデータセットを提案する。中国語と英語を合わせて236時間, NCSSDの信頼性とGPT-Talkerの有効性について総合的な実験を行った。主観的および客観的評価は,本モデルが他の最先端CSSシステムよりも自然性や表現性に優れていたことを示す。 Code、Dataset、Pre-trained Modelは、https://github.com/AI-S2-Lab/GPT-Talker.comで入手できる。

関連論文リスト

DiffCSS: Diverse and Expressive Conversational Speech Synthesis with Diffusion Models [19.259178812147287]
会話音声合成(CSS)は,文脈的に適切な音声と表現的音声の両方を合成することを目的としている。 DiffCSSは拡散モデルとLMベースのTSバックボーンを利用して,多様な,表現的で,文脈的に一貫性のある音声を生成する,革新的なCSSフレームワークである。 DiffCSSから合成した音声は既存のCSSシステムよりも多様で、文脈的に一貫性があり、表現力が高いことを示す実験結果が得られた。
論文参考訳（メタデータ） (2025-02-27T09:53:48Z)
Retrieval-Augmented Dialogue Knowledge Aggregation for Expressive Conversational Speech Synthesis [39.25088200618052]
会話音声合成 (CSS) は, 現在の対話 (CD) の歴史を, 会話スタイルに整合した表現的音声合成への参照として捉えることを目的としている。 CDとは異なり、ストアド・ダイアログ(SD)はユーザーとエージェントの相互作用の初期段階から保存されたダイアログの断片を含んでいる。この知識は,共感的フィードバックを生成する表現的会話音声の合成を可能にする上で重要な役割を担っている。
論文参考訳（メタデータ） (2025-01-11T07:43:18Z)
OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [24.68804661538364]
全音声対話システムは人間と人間の相互作用を著しく反映している。低レイテンシと自然なインタラクションを実現することは、大きな課題です。エンドツーエンド音声対話システムは、効率的で自然なエンドツーエンドシステムを開発する上で有望な方向である。 OmniFlatten氏によって生成された対話のオーディオサンプルは、このWebサイトにある。
論文参考訳（メタデータ） (2024-10-23T11:58:58Z)
Emphasis Rendering for Conversational Text-to-Speech with Multi-modal Multi-scale Context Modeling [40.32021786228235]
Conversational Text-to-Speech (CTTS) は、会話設定内で適切なスタイルで発話を正確に表現することを目的としている。 ER-CTTSと呼ばれるCTTSモデルのための新しい強調レンダリング手法を提案する。データ不足に対処するため、既存の会話データセット(DailyTalk)に強調強調アノテーションを作成します。
論文参考訳（メタデータ） (2024-10-12T13:02:31Z)
Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation [16.724603503894166]
Style-Talkerは、高速音声ダイアログ生成のためのスタイルベースのTSモデルとともに、オーディオLLMを微調整する革新的なフレームワークである。実験の結果,Style-Talkerは対話の自然さとコヒーレンスの両方の観点から,従来のカスケードと音声音声のベースラインを著しく上回ることがわかった。
論文参考訳（メタデータ） (2024-08-13T04:35:11Z)
Integrating Paralinguistics in Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。 USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文参考訳（メタデータ） (2024-02-08T14:35:09Z)
Parameter-Efficient Conversational Recommender System as a Language Processing Task [52.47087212618396]
会話レコメンデータシステム(CRS)は,自然言語会話を通じてユーザの嗜好を喚起することで,ユーザに対して関連項目を推薦することを目的としている。先行作業では、アイテムのセマンティック情報、対話生成のための言語モデル、関連する項目のランク付けのためのレコメンデーションモジュールとして、外部知識グラフを利用することが多い。本稿では、自然言語の項目を表現し、CRSを自然言語処理タスクとして定式化する。
論文参考訳（メタデータ） (2024-01-25T14:07:34Z)
Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-01-10T13:18:25Z)
FCTalker: Fine and Coarse Grained Context Modeling for Expressive Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文参考訳（メタデータ） (2022-10-27T12:20:20Z)
Spoken Style Learning with Multi-modal Hierarchical Context Encoding for Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文参考訳（メタデータ） (2021-06-11T08:33:52Z)
Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文参考訳（メタデータ） (2020-06-27T08:24:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。