論文の概要: CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations
- arxiv url: http://arxiv.org/abs/2404.06690v2
- Date: Wed, 29 May 2024 07:30:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 22:52:03.760091
- Title: CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations
- Title(参考訳): CoVoMix:人間のような多話者会話のためのゼロショット音声生成の改善
- Authors: Leying Zhang, Yao Qian, Long Zhou, Shujie Liu, Dongmei Wang, Xiaofei Wang, Midia Yousefi, Yanmin Qian, Jinyu Li, Lei He, Sheng Zhao, Michael Zeng,
- Abstract要約: CoVoMixは、ゼロショット、人間ライク、マルチスピーカー、マルチラウンド対話音声生成のための新しいモデルである。
対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。
- 参考スコア(独自算出の注目度): 97.75037148056367
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in zero-shot text-to-speech (TTS) modeling have led to significant strides in generating high-fidelity and diverse speech. However, dialogue generation, along with achieving human-like naturalness in speech, continues to be a challenge. In this paper, we introduce CoVoMix: Conversational Voice Mixture Generation, a novel model for zero-shot, human-like, multi-speaker, multi-round dialogue speech generation. CoVoMix first converts dialogue text into multiple streams of discrete tokens, with each token stream representing semantic information for individual talkers. These token streams are then fed into a flow-matching based acoustic model to generate mixed mel-spectrograms. Finally, the speech waveforms are produced using a HiFi-GAN model. Furthermore, we devise a comprehensive set of metrics for measuring the effectiveness of dialogue modeling and generation. Our experimental results show that CoVoMix can generate dialogues that are not only human-like in their naturalness and coherence but also involve multiple talkers engaging in multiple rounds of conversation. This is exemplified by instances generated in a single channel where one speaker's utterance is seamlessly mixed with another's interjections or laughter, indicating the latter's role as an attentive listener. Audio samples are available at https://aka.ms/covomix.
- Abstract(参考訳): ゼロショット音声合成(TTS)モデリングの最近の進歩は、高忠実で多様な音声を生成するために大きな進歩をもたらした。
しかし、対話生成は、音声における人間のような自然性を達成するとともに、引き続き課題である。
本稿では,ゼロショット,ヒューマンライク,マルチスピーカ,マルチラウンド音声生成のための新しいモデルであるCoVoMix: Conversational Voice Mixture Generationを紹介する。
CoVoMixはまず対話テキストを個別のトークンの複数のストリームに変換する。
これらのトークンストリームは、フローマッチングベースの音響モデルに入力され、混合メル-スペクトログラムを生成する。
最後に、HiFi-GANモデルを用いて音声波形を生成する。
さらに、対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。
実験の結果,CoVoMixは自然性やコヒーレンスにおいて人間に似た対話を生成できるだけでなく,複数の話者が複数ラウンドの会話を行うことができることがわかった。
これは、ある話者の発話が他の話者の介在物や笑いとシームレスに混合される単一のチャンネルで生成された事例によって例示され、後者が注意深いリスナーとしての役割を示す。
オーディオサンプルはhttps://aka.ms/covomix.comで入手できる。
関連論文リスト
- Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation [16.724603503894166]
Style-Talkerは、高速音声ダイアログ生成のためのスタイルベースのTSモデルとともに、オーディオLLMを微調整する革新的なフレームワークである。
実験の結果,Style-Talkerは対話の自然さとコヒーレンスの両方の観点から,従来のカスケードと音声音声のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-08-13T04:35:11Z) - Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - Freetalker: Controllable Speech and Text-Driven Gesture Generation Based
on Diffusion Models for Enhanced Speaker Naturalness [45.90256126021112]
我々は、自然発生(例えば、共音声ジェスチャー)と非自然発生(例えば、表彰台を動き回る)の両方を生成するための最初のフレームワークであるFreeTalkerを紹介する。
具体的には、音声によるジェスチャーとテキストによる動作の統一表現を用いた話者動作生成のための拡散モデルについて訓練する。
論文 参考訳(メタデータ) (2024-01-07T13:01:29Z) - Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文 参考訳(メタデータ) (2023-10-12T20:53:39Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Generative Spoken Dialogue Language Modeling [46.5879150153352]
自然主義音声対話の音声サンプルを生成できる最初の「テキストレス」モデルであるdGSLMを紹介した。
これは、教師なし音声単位探索とデュアルトウワートランスアーキテクチャに関する最近の研究を利用している。
2つのチャンネルで音声、笑い、その他のパラ言語的な信号を同時に生成することができ、自然主義的なターンテイクを再現することができる。
論文 参考訳(メタデータ) (2022-03-30T17:39:45Z) - Few Shot Adaptive Normalization Driven Multi-Speaker Speech Synthesis [18.812696623555855]
複数発話音声合成手法 (FSM-SS) を提案する。
FSM-SSは、未確認者の入力テキストと参照音声サンプルから、その人のスタイルで数ショットで音声を生成することができる。
正規化のアフィンパラメータがエネルギーや基本周波数などの韻律的特徴を捉えるのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-12-14T04:37:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。